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内 容 提要 


日 前 ， 从 细菌 到 人 类 ， 各 种 后 物 数据 库 的 信息 量 止 迅 儿 增长 ， 和 后 物 仁 总 学 作 
为 一 门 岂 新 的 前 沿 学 科 也 应 运 而 后 。 生 物 学 不 嵌 是 “数学 等 于 志 ” 的 学 科 ， 也 不 
再 是 仅仅 基于 观察 和 实验 的 科学 ， 理 论 和 计算 将 发 挥 日 瘟 片 大 的 作用 ， 网 络 技术 
KA EPER E ERR O88. 

FUSC FO XodUR Re. RA GBA EA BHL BO 3 PER Ar. A 184] 
A TFGnpAPRBERUS] E. MARET CEVEEULPRI) AN TG. RER CODY 
洋 大 海中 的 导航 图 。 对 生物 信息 学 的 服务 、 软 件 和 算法 ， 本 上 也 作 了 比较 全 面 的 
描述 。 

本 书 可 供 广大 生命 科学 工作 者 以 及 由 物理 学 、 数 学 和 计算 机 科学 转 入 生命 科 
学 领域 的 研究 教学 人 员 参 阅 。 


Dli 


前 


20 世纪 的 数理 科学 对 无 生命 物质 的 结构 和 运动 的 研究 ， 从 微观 到 字 
XL, CTGR NOIRE Bk. 生命 物质 和 生命 现象 必定 是 21 世纪 数理 科学 研究 的 
重要 对 象 . 生物 数据 量 的 迅 狂 增长 ， 既 受益 于 数理 科学 和 计算 机 科学 所 提 
供 的 方法 与 手段 ， 也 呼唤 着 多 种 学 科 的 共同 努力 . 于 是 。 生物 信息 学 应 运 
TE., 它 使 生物 学 研究 者 如 席 添 丑 . 它 也 是 数理 科学 工作 者 进入 生命 研究 
领域 的 自然 插入 点 . 


从 细菌 到 人 类 ， 众 多 物种 的 基因 和 爱 白 质数 据 正 在 以 科学 史上 从 未 
有 过 的 高 速度 增长 。 目 前 已 测定 出 30 多 种 细菌 ， 以 及 一 些 比 细菌 更 高 等 
的 物种 如 酵母 、 线 虫 和 果 蝇 的 完全 基因 组 序列 。 人 类 基因 组 ， 即 一 个 典型 
的 “人 ”的 全 部 基因 ， 也 将 提前 在 2001 年 完全 测定 。 到 2000 年 4 月 中 
名 ,基因 数据 总 量 的 增长 达 度 达到 每 8 个 月 翻 一 慢 。 同 时 ， 每 个 月 还 至 少 
3: 160 种 蛋白 质 的 三 维 结构 。 人 本 身 当 然 是 研究 的 核心 .没有 两 个 人 
的 基因 组 完全 相同 .人 类 基因 组 计划 的 完成 、 只 是 更 为 细致 的 人 群 乃 至 个 
体 的 正常 和 病理 基因 及 其 表达 产物 的 研究 出 发 点 。 预 计 10 年 肉 ， 如 何 利 
用 生物 信息 库 和 生物 计算 手段 ， 即 将 成 为 广大 由 床 医师 和 农林 冀 斩 工作 
者 基本 训练 的 一 部 分 。 生 物 信 息 对 未 来 军事 和 国防 的 影响 也 不 容 和 忽视 。 


这 种 情况 不 仅 反 映 了 科学 知识 的 深化 和 研究 方式 的 转变 ， 在 短 短 几 
年 内 必 将 影响 生物 、 医 学 、 农 业 乃 至 军事 的 众多 领域 ,生物 学 不 再 是 忌 裕 
斯 所 说 “数学 等 于 苓 ”的 学 科 ， 也 不 再 是 仅仅 基于 观察 和 实验 的 科学 . 理 
论 和 计算 将 发 挥 日 益 巨 大 的 作用 ， 数 学、 物理 、 计 算 机 科学 将 越 来 越 多 地 
把 生物 学 问题 作为 当然 的 研究 课题 - 事实 上 ,如 果 没 有 足 学 科 的 发 展 ， 仅 
仅 克 生物 学 工作 者 ， 不 可 能 充分 利用 如 此 迅猛 增 长 的 海量 数据 . 

发 达 困 家 如 美国 ， 目 前 也 面临 着 生物 信息 研究 焉 不 上 项 求 ， 相 关 人 
才 严 重 缺 斥 的 局 面 。 1999 年 6 月 初 美国 国家 卫生 署 的 一 个 专家 委员 会 奸 
议 ， 迅 速 在 大 学 和 研究 机 构 中 建立 名 至 20 个 生物 计算 中 心 ， 给 于 每 个 中 
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心 可 达 800 万 美元 的 年 度 支 持 ， 以 便 从 于 研究 和 培养 人 才 上 上。 这 一 建议 
可 能 从 2001 年 开始 实施 . 

然而 , 欧美 发 达 国 家 在 生物 信息 方面 旱 有 积累 . 手工 搜集 的 恒 和 白质 结 
构 数据 库 早 在 20 世纪 60 年代 就 在 美国 开始 建立 . 美国 洛斯 阿拉 莫 斯 国家 
实验 室 1979 年 开始 的 核酸 序列 库 GenBank , 现在 由 1988 年 成 立 的 国家 生 
物 技术 信息 中 心 (NCBI) 管理 维护 . 欧洲 分 子 生物 学 实验 室 的 EMBL 数据 
E 1982 年 开始 服务 , 随后 又 建立 了 欧洲 分 子 生 物 学 网 (EMBNet). EMBL 
数据 库 1994 年 改 由 当年 建 在 英国 剑桥 的 欧洲 生物 信息 研究 所 (EBI) 管 
Æ. 日 本 1984 年 着 手 建 立国 家 级 的 核酸 数据 库 DDBJ, 1987 年 正式 服 
务 . 目前 绝 大 部 分 核酸 和 和 蛋白质 数据 由 美国 、 欧 洲 和 日 本 三 家 产生 。 以 上 
三 家 共同 组 成 了 DDBJ/EMBL/GenBank 国际 核酸 序列 数据 库 , 每 天 交换 
数据 ， 同 步 更 新 。 其 他 国家 如 德国 、 法 国 、 意 大 利 、 澳 大 利 亚 、 瑞 士 、 瑞 
X. AŽ., mk, UEF AEF, 在 分 享 网 络 资 源 的 同时 ， 还 纷纷 建 
立 自己 的 生 牧 信息 中 心 ， 为 本 国 服务 。 

自从 1985 年 11 月 应 邀 参 加 中 国 科学 院 生物 科学 部 常务 委员 会 关于 
“生物 学 发 展 战 路” 的 扩大 会 议 以 来 ， 我 们 一 直 在 学 习 生 物 学 的 基本 知 
识 ， 为 从 非 线性 科学 向 理论 生命 科学 的 战略 进军 作 准 备 。 1993 年 中 国 笠 
学 院 理论 物理 研究 所 的 局 域 网 与 国际 互联 网 接 通 之 后 ， 各 种 生物 数据 库 
和 信息 网 页 就 成 为 学 习 和 研究 的 必 蔓 条 件 。 近 几 年 来 目睹 生物 信息 学 成 
为 一 个 活跃 的 新 兴 领 域 ， 深 感 所 谓 生 物 信息 学 其 实 就 是 信息 和 计算 机 网 
络 时 代 的 新 生物 学 , 我 国 的 描述 生物 学 根 底 雄 厚 , 但 生物 信息 学 方面 与 国 
际 前 沿 差距 甚大 . 我 国学 者 特别 是 年 轻 一 伐 必 须 迅速 赶 上 . 因此 ,我 们 把 
自己 这 几 年 为 入 门 而 积累 的 工作 笔记 整理 出 来 ， 供 初学 者 参考 。 将 米 ， 国 
家 级 的 生物 医学 信息 中 心 成 立 和 新 一 代 专 家 成 长 之 后 ， 著 书 痛 人 乃 是 他 
们 的 责任 ， 这 本 小 册子 也 就 完成 了 历史 任务 . 

有 有 几 件 事 应 当 说 明 : 


第 一 ， 全 书 取材 和 表述 颇 不 均匀 。 我 们 稍为 知晓 或 记录 较 多 的 事情 
写 得 详细 一 些 , 重要 而 不 热 悉 的 方面 只 给 出 一 些 引 文 和 网 址 当然 还 有 众 
FAR, 我们 希望 这 本 书 能 部 分 地 起 到 参考 手册 的 作用 . 实际 上 ， 全书 也 
是 以 “ 手 般 体 ” 写 成 。 


1 请 参看 网 址 http://vwwe .nih.gov/iwelcome/director/060399 ,htm . 
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第 二 ， 语 言 和 名 词 : 这 本 中 文书 里 夹杂 着 许多 英文 和 少数 拉丁 字 ， 
这 其 实 增加 了 确切 性 ,并 可 免 去 读者 费心 犹 测 . 没有 公认 译名 的 术语 我 们 
或 试 为 命名 或 直 用 原文 .有 : 些 法 定 译 名 似 颇 欠 灵 ，、 如 因特网 (Internet) 我 
们 仍 译 为 国际 互联 网 或 互联 网 ， 书 末 的 索引 ， 既 可 借以 查找 数据 库 或 软 
件 ， 也 是 黄 汉 译名 对 黑 表 . 应 当 指 出 , (E f E x RE TEE X 
发 展 的 领域 ， 目 前 不 通晓 英文 就 无 法 工作 . 

第 三 , 引文 和 索引 : 全 书 有 大 量 期 刊 论文 、 书 藉 和 网 址 的 引用 . 每 项 引 
用 有 一 个 通 贯 全 书 的 统一 编号 ， 例 如 [R-30] 就 是 第 8 页 上 R. F. Doolittle 
HA 《大 分 子 序 列 分 析 的 计算 机 方法 》 一 书 , 读者 不 难 顺 统一 编号 查 到 。 
因此 , 书 未 只 有 一 个 索引 , 不 再 列举 文献 . 读者 可 以 借助 目录 、 索 引 和 这 些 
统一 编号 查找 所 需 的 内 容 . 我 们 希望 大 家 觉得 这 种 组 织 方式 是 方便 的 ， 
另 一 方面 ， 网 址 的 引用 有 些 重复 .这 是 为 了 减少 前 后 番 查 . 

第 四 ， 数 据 库 是 一 切 生 物 信 趾 学 工作 的 基础 。 本 书 主 要 篇 幅 用 于 皂 
要 介绍 一 批 生 物 医学 数据 库 ， 首 先是 《核酸 研究 》 1999 年 和 2000 年 第 
1 期 和 法 国生 物 信息 中 心 的 DBcat[R-207] 所 列举 的 那些 库 。 然 而 ， 也 训 
一 些 它们 未 反映 的 库 . 另外 ,少数 已 经 停止 发 展 的 库 也 偶尔 提 和 到， 以 便 读 
者 在 文献 中 见 到 时 ， 可 以 查 明 出 处 . 

第 五 。 学习 方法 : 计算 机 、 生 物 学 和 两 者 结合 产生 的 生物 信息 学 都 是 
千 头 方 绪 、 盘 根 错 节 的 领域 . 有 效 的 学 习 方 法 是 “全 局 在 胸 、 单 刀 直 入 ”. 
这 本 小 书 力图 勾画 全 局 ， 并 给 出 可 援 以 机 人 悚 的 一 些 线索 。 应 当 特 别 说 明 ， 
本 书 不 是 计算 机 入 门 ， 不 讲 如 何 用 鼠标 点 莱 单 之 类 的 操作 . 

六 ， 针 对 我 国学 术 界 经 济贫 困 的 现实 情况 ， 我 们 着 重 介绍 国际 互 
联网 上 的 免费 生物 信息 资源 ， 对 商业 性 的 软件 只 偶 有 提 及 . 应 当 指 出 ， 
知识 共享 是 国际 生物 信息 学 界 的 突出 特点 . 然而 随 着 生物 信息 容量 、 成 
本 和 重要 性 的 上 升 ， 免费 使 用 数据 库 的 情况 已 经 开始 改变 。 近 两 年 瑞士 
蛋白 质数 据 库 SWISS-PROT [R-401] 、 德 国 转录 因子 数据 库 TRANSFAC 
[R-219] 、 美国 的 RepBase [R-223] 等 数据 库 都 已 对 商业 性 用 户 收取 费用 ， 
但 对 学 术 性 用 户 仍 继续 免费 , 我 国学 者 应 当 怡 守 学 术 道 德 ,为 发 展 科 学 而 
分 享 资源 ， 并 尽 可 能 有 所 贡献 ， 切 不 可 以 学 术 名 义 谋取 经 济 利益 . xx 
商业 时 ， 频 主动 与 资源 所 有 人 联系 并 达成 协议 . 

在 计算 机 网 络 时 代 ， 书本 的 地 位 和 作用 也 正在 发 生变 化 。 一 个 理想 
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的 、 每 天 自动 更 新 的 服务 性 网 页 应 当 比 任何 书本 更 方便 . 不过， 从 一 个 网 
页 出 发 ， 有 成 百 上 千 种 链接 ， 每 个 链接 导致 新 的 网 页 和 链接 ; 即使 在 同一 
个 网 点 内 ， 信 息 组 织 的 层次 也 可 能 很 “ 深 ”， 要 正确 发 据 才 能 到 达 所 项 位 
E. 这 种 情景 很 容易 使 人 在 信息 的 汪洋 大 海中 迷失 方向 . 一 本 篇 幅 有 限 、 
组 织 适 宜 的 手册 ,可 以 起 一 点 导航 作用 , 提高 工作 效率 . 然而 , 国际 互联 网 
上 的 信息 每 时 每 刻 都 在 更 新 和 重组 ， 记 录 在 纸张 上 的 情况 在 随时 老化 。 
我 们 奉劝 读者 在 自己 浏览 器 的 书签 (Bookmark) 中 ， 保 桂 几 个 重要 国际 生 
物 信息 中 心 的 网 址 ， 例 如 美国 国家 生物 技术 信息 中 心 NCBI([R-134] , Ek 
洲 生物 信息 研究 所 EBI [R-131] 和 北京 大 学 生物 信息 中 心 CBI [R-.166] 的 
网 址 ， 经 常 浏览 以 关心 最 新 进展 。 

我 们 曾经 从 许多 学 者 的 学 术 报 告 或 面谈 交流 中 受益 ， 这 里 只 能 提 到 
一 部 分 : 中 国 科学 院 上 海 生 物化 学 研究 所 徐 京华 、 美 国 Oracle 公司 郑 强 、 
美国 南 加 州 大 学 医学 院 朱 软 士 、 和 台北 阳 明 大 学 医学 院 杨 永 正 、 中 国 科 学 院 
生物 物理 研究 所 陈 润 生 、 北 京 大 学 生命 科学 院 顾 孝 诚 和 罗 租 初 、 天 津 大 
学 生命 科学 院 张 春 弟 、 中 国 科学 技术 大 学 生命 科学 院 施 董 渝 . 内 蒙古 大 学 
物理 系 罗 过 复 、 清 华 大 学 生物 系 孙 之 荣 、 美 国 国家 生物 技术 信息 中 心 万 宏 
辉 、 中 国 科学 院 理论 物理 研究 所 郑 伟 谍 、 美 国 《 科 学风 AP EREA 
等 。 特 别 是 北京 大 学 顾 地 诚 、 胡 美 洪 和 罗 静 初 ， 阅 读 了 此 书 手稿 ， 提 出 宝 
焉 建议 。 本 书 由 作者 使 用 中 国 科 学 院 计 算数 学 与 科学 工程 计算 研究 所 张 
林 波 等 编制 的 科技 神 版 软件 BIEX P x CCT [R-77] 接口 排版 。 理 论 物 理 
研究 所 程 希 有 和 陈 国 义 ， 以 及 上 海 科学 技术 出 版 社 潘 支 星 和 时 剑 在 排版 
方面 给 予 指导 . 我 们 向 所 有 这 些 同仁 数 谢 . 当然 ， 书 中 一 切 不 确 和 失误 之 
处 概 由 我 们 自己 负责 ， 并 尽 请 读者 网 教 . 
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第 1 章 什么 是 生物 信息 学 


生物 信息 学 是 一 个 词典 里 还 没有 的 英 交 闲 词 bioinfonrinaties. fr FiK 
Eni. 这 是 计算 机 和 网 络 大 发 展 、 各 种 生物 数据 库 迅 猛 增长 形 堆 上 如 何 组 
织 数据 、 并 从 数据 中 提取 生物 学 新 知识 的 一 门 学 问 . dE Ta ngos CM 
进 正在 引发 生物 学 研究 方式 的 一 场 革命 ， 它 必 将 影响 到 21 ES C NC A 
药 和 人 类 生产 与 生活 的 许多 方面 . 

为 了 说 明 这 种 变化 , 可 以 考察 图 1.1 中 曾 出 的 三 条 上 有 曲线 . re EE, UI 
乎 趋 近 饱 和 的 曲线 是 1966 年 以 来 美国 国家 医学 图 书馆 (National Library 
of Medicine ,简称 NLM) 所 提供 的 在 线 检索 服务 MEDLINE [R-599) 所 收 
录 的 文章 中 的 一 大 类 ， 即 “分 子 生物 学 和 遗传 学 ”论文 数目 的 增长 情况 . 
MEDLINE 的 选用 范围 超出 医学 而 囊括 几乎 全 部 重要 的 生物 学 期 败 , 这 条 
曲线 大 致 反 上 映 了 人 类 消化 理解 实验 事实 各 数据, 使 之 上 升 为 科学 知识 的 过 
程 . 从 20 世纪 80 年代 初 迅速 抬头 的 曲线 是 美国 核酸 序列 数据 库 GenBank 
[R-212] 中 核酸 序列 数 自 的 增长 情况. 这 条 线 清楚 地 表明 ， 数 媚 增长 越 来 
越 快 ， 传 统 的 研究 方式 已 经 来 不 及 迅速 消化 新 数据 ， 把 后 者 及 时 提升 为 
科学 知识 . 

所 幸 有 一 条 跨越 以 上 上 两 条 曲线 、 由 8 个 数据 点 构成 的 的 第 二 条 线 ， 
它 反 映 出 大 规模 集成 电路 单个 CPU 芯片 土 的 三 极 管 数目 的 增长 速率 . E 
是 这 一 技术 进步 提供 了 解决 问题 的 关键 手段 。 目 前 一 个 典型 的 基因 测序 
中 心 , 每 年 可 以 产生 1014 字 节 即 100 000GB 原始 数据  . 数据 的 产生 、 搜 
集 和 分 析 ， 都 必须 依靠 计算 机 和 网 络 、 都 必须 发 展 数据 库 、 算 法 和 程序 . 
这 就 是 生物 信息 学 的 使 命 . 


2 见 Science 284 (1999) 1742 . 


2 第 工 章 什么 其 生 物 信息 学 
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W 1.1 生物 信息 的 增长 情况 


1980 年 以 来 GenBank 中 核酸 序列 总 大 基 数量 《空心 图 点 、 高 麻 须 再 乘 以 109) , 
1966 年 以 来 MEDLINE 收录 分 于 生物 学 和 遗传 学 论文 数 虽 (实心 四 点 .高 庶 须 再 隧 以 
10?) , 以 及 1971 年 以 来 Intel 公司 每 个 CPU 芯片 上 三 极 管 数目 (大 实心 图 点 ,高度 须 再 
XUL 103) 的 增长 情况 、 GenBank [R-212] 的 数据 取 自 每 版 的 说 明文 件 gbrel.txt . 


关于 MEDLINE 请 难看 [R-599]. Intel 的 数据 只 有 8 75. RA 
http://wuw.physics.udel.edu/wwwumers/watson/sceniO3/ 


本 图 构思 参考 了 [R-4). 


$1.1 生物 数据 与 生物 计算 


20 世纪 后 半 时 分 子 生 物 学 的 长 足 进展 ， 把 生命 活动 的 物质 基础 追溯 
到 核 松 和 和 蛋白质 两 大 类 生物 大 分 子 的 序列 ， 它 们 构成 了 生物 数据 的 主要 
部 分 . 关于 这 些 生 物 大 分 子 的 结构 、 相 互 作用 和 生物 功能 的 研究 ， 也 产生 
着 大 量 数 据 . 直到 不 久 前 ， 人 类 科学 实践 产生 数据 量 最 大 的 领域 ,还 是 高 
能 物理 实验 和 脑 神经 活动 成 象 ， 两 者 都 达到 每 年 10' 字 节 .现在 生物 数 


据 的 产生 率 已 经 达到 同样 水 平 ， 而 且 很 快 就 要 超出 前 两 者 . 


生物 信息 学 与 计算 生物 学 或 生物 计算 有 密切 关系 ， 但 又 不 尽 相同 . 
目前 妇 入 生物 信息 学 领域 的 大 臻 有 以 下 几 个 方面 : 


81.1 生物 数据 与 生物 计划 3 


第 一 ， 各 种 生物 数据 库 的 建立 和 管理 。 这 是 一 切 生物 信息 学 七 作 的 
基础 ,通常 费 有 计算 机 科学 背景 的 专业 人 员 与 生物 学 者 密切 合作 .本 书 不 
讨论 数据 库 的 建立 和 管理 , 但 要 列举 大 量 现 成 数据 库 的 网 址 ,对 其 中 一 些 
略 加 说 明 . 

第 二 ， 数 据 库 接 口 和 检索 工具 的 研制 数据 库 的 内 容 来 自 万 千 生 物 
学 者 的 日 积 月 累 , 最 终 又 为 生物 学 所 用 , 但 不 能 要 求 一 般 生 物 学 工作 者 具 
有 高 深 的 计算 机 和 网 络 训练 . 因此 ,必须 发 展 查询 数据 库 和 向 库 里 提供 数 
据 的 方便 接口 . 这 是 专业 人 员 才 能 胜任 的 工作 , 通常 在 生物 信息 中 心里 进 
fi. 本 书 不 关心 接口 和 检索 工具 的 编写 , 但 将 简要 介绍 某 些 接口 和 工具 的 
使 用 。 

第 三 ， 人 类 基因 组 计划 的 实施 ,配合 大 规模 的 DNA 自动 测序 ， 对 信 
息 的 采集 和 处 理 提出 了 空前 的 要 求 。 从 各 种 图 谱 的 分 析 、 大 量 序 列 片段 
的 联 配 、 计算机 克隆 、 寻 找 基因 和 预测 结构 与 功能 到 数据 和 研究 结果 的 
视 象 化 , 无 不 需要 高 效率 的 算法 和 程序 . 研究 新 算法 ,发 展 方便 适用 的 程 
序 ， 是 生物 信息 学 的 日 常任 务 . 


第 四 ， 生 物 信息 学 最 重要 的 和 任务， 是 从 海量 数据 中 提取 新 知识 ， 这 
首先 要 从 DNA 序列 中 识别 编码 蛋 向 质 的 基因 ， 以 及 调控 基因 表达 的 各 种 
信号 . 其 次 ， 从 基因 组 编码 序列 翻译 出 的 蛋白 质 序列 的 数目 急剧 增加 ， 根 
本 不 可 能 用 实验 方法 一 一 确定 它们 的 结构 和 功能 。 从 已 经 积累 的 数据 和 
知识 出 发 ， 预 测 蛋 白质 的 结构 和 功能 ， 成 为 常规 的 研究 课题 . 

第 五 ，DNA 芯片 和 微 阵 列 的 发 展 ,把 一 定 组 织 或 生物 体内 方 千 基因 
时 空 表达 的 研究 提 上 日 程 ,研究 基因 表达 过 程 中 的 罕 群 关系 ， 从 中 提取 
调控 网 络 和 代谢 途径 的 知识 ， 进 而 从 整体 上 掌握 细 和 貌 内 的 侈 部 二 相 起 合 
的 生化 反应 ,这 一 切 都 要 求 发 展 新 的 算法 . 这 是 生物 信息 学 刚刚 掀 开 的 新 
篇 章 . 


当然 ， 任 何 新 兴 领 域 的 开拓 ， 都 不 应 从 学 科 定 义 出 发 ， 事 先 限 制 自 
己 的 研究 方向 ,生物 信息 学 的 内 容 也 在 不 断 扩展 ， 而 不 局 限 填 上 面 列举 
的 几 条 . 
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81.2 生物 信息 学 与 生物 实验 


生物 信息 学 的 发 展 ， 将 造就 一 批 不 直接 做 实验 击 每 天 学 在 计算 机 终 
端 前 的 生命 科学 工作 者 . “生物 学 是 实验 科学 ”这 类 曾经 完全 正确 、 但 已 
不 十 分 符合 当今 科学 实践 的 提 法 , 如 果 不 正确 理解 ,就 会 在 -定时 期 里 拓 
伤 有 志 于 生物 信息 学 的 年 轻 人 的 积极 性 ， 妨 碍 他 们 获得 必要 的 经 费 支 持 
和 群 升 ， 因 此， 我 们 要 专门 讲 一 下 生物 信息 学 与 生物 实验 的 关系 . 

首先 ， 作 为 生物 信息 学 基础 和 出 发 点 的 核酸 与 蛋白 质 序列 都 来 自 实 
验 . 即使 是 高 产 出 的 自动 测序 机 ， 也 都 基于 以 往 的 实验 成 就 ， 同时， 这 也 
表明 以 往 艰苦 卓绝 的 某 些 实验 技术 已 经 发 展 成 现代 化 生产 线 . 

其 次 ， 在 全 球 每 天 产生 以 千 万 碱 基 对 计数 的 核酸 序列 ， 从 中 翻译 出 
成 百 的 可 能 的 蛋白 质 序列 的 时 代 ， 已 经 根本 不 可 能 用 实验 办 法 去 逐一 确 
定 它们 的 结构 和 功能 . 只 有 根据 以 往 积累 的 数据 和 经 验 , 对 大 量 新 序列 进 
行 分 析 饰 选 ,站 能 突出 应 当 由 实验 去 决断 的 问题 再 投入 极其 宝贵 的 人 力 
物力 .这 一 决策 也 得 借助 计算 机 完成 

第 三 ， 越 来 越 多 的 物种 的 基因 组 将 被 基本 上 完全 地 测定 ， 那 种 倾 毕 
生 精 力 研究 一 个 基因 、 一 条 代谢 途径 、 一 种 生理 周期 的 时 代 已 经 过 去 . 还 
会 有 学 者 这 么 做 ， 但 他 们 将 只 代表 一 种 研究 风格 ， 而 不 再 是 学 术 主 流 。 
人 们 正在 盖 明 细胞 内 的 全 部 互相 耦合 的 调控 网 络 和 代谢 网 络 ， 纲 胞 间 的 
全 部 信号 转 针 过 程 ， 从 受精 卵 到 成 体 的 全 部 生理 和 病理 的 基因 表达 的 变 
化 ， 等 等 。 这 一 切 都 超出 了 手工 分 析 的 可 能 性 . 

因 发 明了 一 种 DNA 快速 测序 方法 面 同 F. Sanger 分 享 1980 (pui m 
尔 化 学 奖 ( 见 本 书 3.6.5 小 节 ) 的 W. Gilbert, 1991 年 在 英国 《自然 》 周 
刊 撰写 短文 *， 针 对 生物 学 的 研究 范式 的 变化 指出 ，“ 正 在 兴起 的 新 的 范 
式 在 于 ， 所 有 的 ' 基 因 ， 将 被 知晓 (在 可 用 电子 方式 从 数据 库 里 读 取 的 意 
义 上 ) ,今后 生物 学 研究 项 目的 起 点 将 是 理论 的 。 一 位 科学 家 将 从 理论 靖 
测 开始 ， 然 后 才 转 向 实验 去 继续 或 检验 该 假设 ，” 这 一 观点 正在 被 越 来 
越 多 的 生物 学 工作 者 所 认同 


3Walter Gilbert, "Towards a paradigm shift in biology" , Nature 349 (1991) 99. 


81.3 Wi Ti fe 2x 5 


从 根本 上 土 说 ， 实 验 始 终 起 着 决定 性 的 作用 . 然而， 这 并 不 表明 事 事 
取决 于 实验 ,而 是 指 那些 精心 设计 的 、 决 定性 的 新 实验 ， 否 则 就 是 忽视 体 
现在 数据 库 中 的 以 往 的 大 量 实验 成 果 . 考虑 到 数据 库 中 不 可 避免 的 错误 
和 测序 误差 盲目 依 佑 数据 库 去 对 新 序列 进行 注释 ， 早 晚会 导致 “ 思 转 注 
释 灾 难 ” (transitive annotation catastrophe)? 。 科 学 的 态度 当然 不 是 因 嘲 
废 食 ， 而 是 发 展 正 确 的 生物 信息 学 方法 ， 在 “噪声 背景 ”中 提取 信和 号 .器 
顾 物 理学 的 发 展 ， 在 19 世纪 曾 是 实验 科学 ， 20 世纪 上 半 叶 发 展 成 理论 
和 实验 密切 结合 的 科学 ，20 世纪 下 半 叶 成 为 册立 在 实验 、 理 论 和 计算 二 
足 之 上 的 成 熟 的 发 达 学 科 . 生物 也 是 物 . 生物 学 的 发 展 也 会 从 物 埋 学 待 到 


启示 。 


81.3. 期 刊 和 会 议 


这 里 先 列 举 一 些 与 生物 信息 学 有 关 的 期 刊 和 早期 的 会 议 文集 ， 目 的 
在 于 说 明生 物 信息 学 的 济源 。 近 来 已 经 有 一 些 经 常 举行 的 生物 计算 和 生 
物 信息 学 会 议 , 如 PSB 太平 洋 生物 计算 研讨 会 IR-825] 、ISMB 分 子 生物 
学 中 的 智能 系统 会 议 [R-326; 、 RECOMB 计算 分 子 生物 学 年 会 (R-827] 
等 ， 请 访问 本 书 第 5 章 列举 的 网 址 . 
据说 ， 出 生 在 马来西亚 的 美 籍 学 者 林 华 安 (Hwa A. Lim) 首先 创造 和 
使 用 了 bioinformatics 这 个 词 ， 见 [R-2] . 
R-1 O. Hatase, and J. H. Wang, eds. Bioinformatics: Information Trans- 
duction and Processing Systems from Cell to Whole Body, 1989. 此 会 
议 文集 虽 用 了 bioinformatics 一 词 ， 但 涵义 与 目前 用 法 不 同 . 
R-2 C. R. Cantor, and H. A. Lim, eds. Electrophoresis, Supercomputing 
and the Hurnan Genome, World Scientific Publishing Co., 1991. 
R-3 H. A. Lim, J. W. Fickett, C. R. Cantor, and R. J. Robbins, eds. The 
Second International Conference on Bioinformatics, Supercomputing, 
and Compler Genome Analysis, World Scientific Publishing C'o., 1993. 
云南 大 学 曾 翻 译 了 文集 中 12 篇 文章 ， 油 印 成 册 . 
R-4 Trends Guide to Bioinformatics, 这 是 1998 年 11 月 号 的 Trends in 


4 W, Nature Genetics 杂志 1999 年 10 月 号 的 社论 ， 
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Genetics HEP, REA 1 篇 关于 生物 信息 学 各 个 方面 的 综述 义 
章 . 

R-5 期 刊 Computer Applications in Bioscience ， 简 称 CABIOS ， 是 生物 
信息 和 计算 方面 的 重要 期 刊 。 这 是 一 家 不 收取 版 面 费 的 彤 物 ， 但 它 
所 发 表 的 程序 必须 在 两 年 内 提供 给 学 术 界 自由 使 用 . 从 1998 年 第 14 
Fi, ATEFA. AXEZ, ME Bioinformatics, ERIH 
能 在 网 土 阅读 电子 版 ， 非 订户 可 请 求 用 电子 邮件 通知 每 期 目录 。 网 
hk: 
http://bioinformatics.oupjournals.org/ 

subscriptions/etoc.shtml 

R-6 Nucleic Acids Research( 《核酸 研究 》 条 志 ) ， 每 年 第 一 期 是 生物 数据 
库 专集 ， 并 不 限于 核酸 数据 库 . 它 平时 也 发 表 一 些 算法 文章 ,其 网 页 
是 : 
http://www.nar.oupjournals.org/ 

R-7 H 1998 年 开始 出 版 的 新 刊 In Silico Biology ， 强 调 生物 学 研究 从 体 
内 (in. vivo) 和 体外 (in vitro) 的 实验 观察 , 发展 到 靠 硅 芯片 (in silico) 
的 处 理 和 运算 . 这 个 刊物 创刊 号 的 文章 可 以 免费 下 载 ， 截 至 2000 年 
5 月 其 他 新 文章 也 还 是 免费 的 .网 址 是 : 
http://www .bioinfo.de/isb/ 

R-8 Bioinformer 是 欧洲 生物 信息 研究 所 EBI [R-131] 的 电子 遂 售 ， 每 季 
度 一 期 ， 自 由 访 取 . 网址: 
http://bioinformer.ebi.ac.uk/ 

R-9 从 2000 年 开始 ,在 EMBNet 支持 下 出 版 新 的 季刊 Briefings in Bioin- 
formatics ( 《生物 信息 学 简报 了》 , ISSN: 1467-5463) , 由 Henry Stewart 
Publications 发 行 。 出 版 社 的 网 址 : 
http://www.henrystewart.com/publications/bib/ 
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下 面 列 举 的 书籍 分 成 两 类 .第 一 类 与 生物 信息 学 有 直接 关系 ， 均 系 
近 几 年 的 新 书 . 
R-10 H. A. Lim, and C. R. Cantor, eds. Bioinformatics and Genome Re- 
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search, World Scientific Publishing Co., 1995. 

R-11 S. K. Swindell, K. R. Miller, and G. S. A. Myers, eds. Internet for the 
Molecular Biologist, Horizon Scientific Press, 1996. 

R-12 L. F. Peruski Jr., and A. Harwood Peruski, The Internet and the New 
Biology. Tools for Genomic and Molecular Research, American Soceity 
for Microbiology, 1997, xi + 314. 

R-13 B. A. Gaeta, ANGIS Bioinformatics Handbook: vol. 1 Interfaces, vol. 2 
Basic Bioinformatics Techniques; vol. 3 Applications; vol. 4 Specialized 
Databases, University of Sydney, 1997， 这 是 澳大利亚 国家 基因 信息 
服务 中 心 为 澳 生 物 学 家 准备 的 手 坟 ， 可 以 全 套 100 美元 特价 月 ama- 
zon.com 购买 ， 但 内 容 局 限于 ANGIS 的 软件 环境 、 

R-14 夏 云 主编 ，《 Internet 实用 技术 与 生物 医学 应 用 》， 秆 事 医 学 科学 
出 版 社 ， 1997, 1998 , xi + 429. 此 书 用 相当 大 篇 四 讲述 网 络 积 计 
算 机 的 基本 知识 , 包括 如 何 用 鼠标 点 菜单 . 因而 直接 涉及 生物 信息 学 
的 内 容 相 对 较 少 . 

R-15 L. Alphey, DNA Sequencing. From Experimental Methods to Bioinfor- 
matics, Springer, 1997, xvi + 206. f 

R-16 M. J. Bishop, ed. Guide to Human Genome Computing, 2nd ed., 
Academic Press, 1993, 1998, xiv + 306. 

R-17 Andreas D. Baxevanis, and B. F. Francis Ouellette, eds. Bioinforma- 
tics. A Practical Guide to the Analysis of Genes and Proteins, Wiley- 
Interscience, 1998, xiv + 370. 清华 大 学 李 衍 达 、 孙 之 荣 的 汉 译 本 ， 将 
由 清华 大 学 出 版 社 出 版 ， 

R-18 P. Baldi, and S. Brunak, Bioinformatics. The Machine Learning Ap- 
proach, MIT Press, 1998, xviii + 351. 出 P. Baldi 编写 的 HMMPro f 
序 ， 学 术 性 用 户 可 免费 下 载 ， 请 参看 [R-740] . 

R-19 M. Bishop, ed. Genetics Databases, Academic Press, 1999, xiv + 295. 

R-20 T. K. Attwood, and D. J. Parry-Smith, Introduction to Bioinformatics, 
AWL Press, 1999, xx + 218. IERA F PRENIA, Hie k 
学 出 版 社 出 版 . 

R-21 Stanley I. Letovsky, ed. Bioinformatics: Databases and Systems 
Kluwer Academic Publishers, 1999, viii 十 304. 
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R-22 H. H. Rashidi, and L. K. Buchler, Bioinformatics Basics Applications 
in Biological Science and Medicine, 1999. 

R-23 S. Misener, and S. A. Krawetz, eds. Bioinformatics. Methods and 
Protocols, Methods in Molecular Biology 1332, Humana Press, 2000, xi 
+ 500. 这 是 (R-27] 的 更 新 版 本 . 

第 二 类 书籍 侧重 序列 分 析 的 理论 和 算法 . 这 类 书 早 有 出 版 ,例如 [R 
24] 。 下 面 主要 列举 一 些 较 新 者 : 

R-24 D. Sankolf, and J. B. Kruskal, Time Wraps, String Edits, and Macro- 
molecules: The Theory and Practice of Sequence Comparison. Addison- 
Wesley, 1983. 这 是 生物 信息 启蒙 时 期 很 受 欢 迎 的 著作 . 当 它 问世 时 ， 
GenBank [R-212] 中 只 有 606 个 DNA 序列 . 

R-25 M. S. Waterman ed. Mathernatical Methods for DNA Sequences, CRC 
Press, 1989. 

R-26 Russell F. Doolittle, ed. Molecular Evolution: Computer Analysis of 
Protein and Nuclewc Acid Sequences, Method in Enzymology 183, Aca- 
demic Press, 1990. 此 书 主 要 内 容 已 被 [R-30] Hz fX. 

R-27 A. M. Griffin, and H. G. Griffin, eds. Computer Analysis of Sequence 
Data, Part I and II, Methods in Molecular Biology 25 , Humana Press, 
1994. 此 书 已 被 [R-23] WX. 

R-28 C. A. Pickover, ed. Visualization of Biological Information, World 
Scientific Publishing Co., 1995. 这 是 15 篇 简短 综述 的 文集 ， 包 括 我 
图 学 者 张 春 色 关于 核酸 序列 的 一 种 形象 表示 (2 曲线 ) 的 介绍 . 

R-29 Michael S. Waterman, Introduction to Computational Biology. Maps. 
sequences and genomes, Chapman & Hall, 1995, xv 十 431. 

R-30 Russell F. Doolittle, ed. Computer Methods for Macromolecular Se- 
quence Analysis, Method in Enzymology 266, Academic Press, 1996. 

R-31 M. J. Bishop, and C. J. Rawlings, eds. DNA and Protein Sequence 
Analysis, Oxford University Press, 1996. 

R-32 S. Schulze-Kremer. Molecular Bioinformatics: Algorithms and Appli- 
cations, Walter de Gruyter, 1996, xv 十 300. 

R-33 Dan Gusfield, Algorithms on Strings, Trees, and Sequences. Computer 
Science and Computational Biology, Cambridge University Press, 1997, 
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xviii 4- 534. 

R-34 Joao Setubal, and Joao Meidanis, Introduction to Computational Mole- 
cular Biology, PWS Publishing Company, 1997, xiii 十 296. 

R-35 S. R. Swindell, ed. Sequence Data Analysis Guidebook, Humana Press, 
1997. 

R-36 R. Durbin, S. Eddy. A. Krogh, G. Mitchison, Biological Sequence Ana- 
lysis: Probabilistic Methods of Proteins and Nucleic Acids, Cambridge 
University Press, 1998, xi + 356. 

R-37 Ben-Hui Liu, Statistical Genomics. Linkage, Mappings, and QTL 
Analysis, CRC Press, 1998, xxix 十 611. 

R-38 S. L. Salzberg, D. B. Searls, and S. Kasif, eds. Computational Methods 
in Molecular Biology, Elsevier Science, 1998. 

R-39 J. T. L. Wang, B. A. Shapiro, and D. Shasha, eds. Pattern Discovery 
in Biomolecular Data: Tools, Techniques, and Applications, Oxford 
University Press, 1999. 


EBE, jPAGKERELEGdSBURPHGAKBR] ERBER T, —HUTBPBEE 

处 指明 . 顺便 指出 , 国内 期 本 上 上 近 几 年 也 有 许多 介绍 生物 信息 学 的 文 草 。 

例如 : 

R-40 丁 达 夫 、 梁 卫 平 、 陈 洁 ，“ 生 物 信 息 学 *”，《 科 学 》 50 (1998) 第 2 
期 ， 20 - 23. 

R-41 罗 静 初 、 江 涛 、 李 兵 . BRAGA. ERRE, AD., 唐 议 、 顾 红 雅 、 张 兴 华 、 
顾 孝 诚 ， “分 子 生 物 信 息 镜 象 系统 和 数据 库 ?，《 高 技术 通讯》 1998 
年 10 f], 61-62. 

R-42 WX. PAH. 顾 孝 诚 ,. “生物 信息 资源 的 应 用 和 二 次 并 发 "，、《 商 技 
术 通 讯 》 1999 年 1 有 万，60 - 62， 

R-43 i gr, BER, CH, pA, "Internet 与 生物 信息 学 "”，《 科 
学 美国 人 》 (中 文 版 ) 1999 年 第 1 Hj, 71-72, 

R-44 李 伟 章 、 怪 檀 红 ，“ 生 物 信息 学 与 新 药 研究 "、《 科 学 》 51 (1999) 
32839, 17-20. 

R-45 KARE. TIE). "IEVOUGBT.: 生物 实验 数据 和 计算 技术 结合 的 
新 领域 "，《 科 学 通报 》 44 (1999) 1457 - 1468 , 
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R-46 郝 术 林 ，“ 建 议 尽 快 组 建国 家 级 生物 医学 信息 中 心 *，《 中 国 科 学 院 
院 刊 》 15 (2000) 133 - 134 ; 中 国 科 学 院 ，《 2000 科学 发 展 报告 》 ， 
科学 出 版 社 ， 2000 ， 243 - 246 . 

R-47 JUR, “生物 信息 学 "，《 中 国 科 学 院 院 央 》 15 (2000) 260 264, 


第 2 章 计算 机 和 互联 网 


我 们 假定 读者 所 使 用 的 计算 机 已 经 直接 或 以 电话 拨号 方式 联接 到 尽 
联网 上 ， 因 而 不 必 关 心 联 网 问题 . 完全 没有 使 用 过 计算 机 的 大 .应 当先 补 
课 再 看 本 书 . 热 悉 计算 机 和 互联 网 的 读者 ， 可 以 跳 过 这 一 章 ， 从 第 3 章 或 
3B 4 章 继 续 阅 读 . 所谓“ 熟悉 ”主要 指 : 

第 一 ， 对 自己 使 用 的 计算 机 (PC 机 或 工作 站 ) 和 操作 系统 (如 微软 视 
窗 系统 或 UNIX) 有 基本 了 解 ， 知 道 主 要 的 命令 或 鼠标 / 菜单 操作 . 

第 二 , 知道 常用 的 义 件 类 型 和 外 理 相 应 文件 的 软件 , 例如 用 编辑 程序 
产生 纯 文 本 (text) 文件 ,用 GhostScript 显示 PostScript S: fF, Hj Acrobat 
Reader 显示 和 打印 PDF 文件 ， 等 等 . 

第 三 ， 可 以 顺利 收发 英文 电子 邮件 (E-mail) ， 知 道 如 何 显示 和 保存 
电子 邮件 的 附件 (attachment) , 

第 四 ， 会 用 Netscape Communicator 或 Microsoft Internet. Explorer 
这 类 网 络 “浏览 器 " 阅读 已 知 地 址 的 网 页 , 并 且 供 助 浏览 器 “下 载 ” Xf. 
不 知道 网 址 时 会 借助 各 种 搜索 工具 查找 . 

第 五 ， 会 用 fp 从 已 经 知道 地 址 的 远程 计算 机 的 公用 子 旧 录 (/pub) 
中 读 取 文件 . 

第 六 ， 会 用 telnet 命令 登录 到 已 经 开 好 帐号 的 远程 计算 机 上 去 运行 
作业 . 

如 果 对 上 . 面 某 一 条 没有 把 握 ， 可 以 只 参阅 相应 的 小 节 . 还 有 一 个 PC 
机 和 UNIX 机 之 闻 , AR E A UNIX 机 的 三 相 联接 问题 ,没有 列 在 上 面 ， 
但 有 一 少 节 叙 述 ， 必 要 时 可 参考 、 然 而， 本 章 并 不 是 计算 机 入 门 ， 感到 叙 
述 过 于 简略 的 读者 应 当 参 阅 有 关 书 籍 ， 例 如 [R-14. 其实 ， 最 有 效 的 学 
习 方 法 是 上 网 实践 ， 并 及 请 教育 经 验 的 同事 或 学 生 . 
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82.1 计算 机 和 操作 系统 


红 使 用 者 直接 操 件 计算 机 的 时 代 早 已 过 去 .现代 几 户 只 需要 、 也 只 
能 够 遂 过 出 三 家 担 供 的 “ 橡 作 系 统 ” 去 使 用 计算 机 . EE, ERR” 
也 早已 巡 到 幕后 。 多 数 用 户 看 见 的 只 是 “窗口 ”和 “菜单 "、 用 鼠标 轻 点 
菜单 来 散 自己 的 事情 . 由 硬件 体现 的 计算 机 ,加 上 由 操作 系统 总 管 的 软 硬 
件 资源 ， 现 在 统称 为 “平台 ” (Platform) . 自前 多 数 生物 信息 资源 和 计算 
软件 , 在 同一 类 平台 上 是 完全 奖 容 的 ,跨越 平台 随遇而安 的 软件 也 越 来 越 
&. 
我 国 常见 的 计算 机 平台 主要 有 两 大 类 ， 即 运行 微软 公司 视窗 系统 的 
“个 人 ”计算 机 (本 书 中 简称 为 PC 机 ) 和 运行 UNIX 操作 系统 的 工作 站 
(workstation) . i&)H F PC 机 的 一 种 免费 UNIX 系统 称 为 Linux 。 运 行 
Linux 的 PC WENKE; 它们 的 使 用 与 工作 站 几乎 相同 . 同一 台 PC 机 
上 可 以 安装 微软 视窗 和 Linux 两 套 系统 ， 安 装 和 切换 的 办 法 最 好 去 清 教 
本 单位 的 系统 管理 人 员 ， 这 里 不 讲 . Linux 系统 的 另 一 个 好 处 是 它 带 有 
大 量 国 际 上 流行 的 、 质 量 相当 高 的 免费 UNIX. 应 用 程序 ， 省 去 用 户 在 网 
上 寻 罗 和 安装 之 劳 。 可 以 免费 下 载 Linux 软件 和 有 关 文 件 的 网 点 很 多 ， 
我 们 只 给 出 下 面 几 个 : f 
R-48 Linux 软件 网 址 : 
http://www.linux.org/ 
R-49 Linux 软件 说 明 韦 网 址 : 
http://www .linuxdoc.org/ 
http://www.unc.edu/LDP/ 
http://metalab.unc.edu/ 
R-50 汉化 的 Linux 系统 可 参看 : 
http://www.linuxchina.org/ 
http://turbolinux.com.cn/ 


历史 上 还 有 两 类 平台 ， 即 从 VAX 计算 机 及 其 操作 系统 演变 而 来 的 
VMS 系统 和 其 实 最 早 使 用 视窗 的 苹果 机 和 Macintosh. 它们 在 朵 外 仍然 
占有 一 定 市 场 , fU BINH ESSE MUR ER. 出 于 这 类 平台 介 
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过 2.1 重要 UNIX 和 DOS $ $0 * 
操作 UNIX 命令 DOS 命令 补充 说 型 
列 出 当前 日 录 ls -1 DIR 长 清音 
内 的 文件 清单 1s DIR/W 短 请 单 
复制 文件 cp copy 
比较 文件 cmp COMP 
删除 文件 rm DEL 
建立 子 日 吕 mkdir MKDIR G& MD 
MECÉ M rodir RMDIR 或 RD 
MERRE cat. more TYPE pr 
寻找 字符 串 grep FIND 
打印 文件 lpr COPY PRN: fren 
询问 当前 日 录 路 径 pud 
AFRI cd HPRH 
cd X R EH-K 
I8) ET BR cd .. cD .. 
转 到 子 目 录 cd subdirname CD subdirname 
EFM. Mp man HELP 


国内 并 不 普及 ， 我 们 一 律 略 去 . 

微软 视窗 系统 的 菜单 背后 ， 其 实 是 原来 磁盘 操作 系统 (DOS) 的 命 
4. 现在 的 视窗 系统 仍然 允许 开户 回 到 DOS 方式 工作 .DOS 命令 的 设计 
曾 受 UNIX 系统 的 影响 . 4 2.1 列举 了 一 些 重要 的 DOS 和 UNIX 命令 ， 
并 作 简 单 说 明 . UNIX. 系统 区 分 大 小 写字 母 ， 命 令 一 般 用 小 写 。 DOS A 
统 不 区 分 大 小 写 ， 我 们 在 表 2.1 中 也 两 者 混用 . 

如 果 想 核实 某 条 DOS 命令 的 可 选 参 数 ， 可 在 MS DOS 窗口 中 发 这 
条 命令 并 带 参数 /? . Ri RARA ER EE UU). Did, Ey RRERE NE 
式 化 命令 的 用 法 ， 可 发 命令 FORMAT /? . 

UNIX 命令 极其 丰富 ， 有 些 命令 自己 就 是 一 种 语言 。 UNIX 系统 通 
常 带 有 大 量 联机 文件 . 如 果 临 时 忘记 某 条 命令 的 使 用 细节 ， 可 以 发 man 市 
令 ， 调 阅 《 使 用 手册 》 中 关于 该 命令 的 说 明 . 读者 不 妨 一 试 命令 man man 
的 效果 . 另 一 个 方便 的 UNIX 命令 是 apropos 后 随 一 个 关键 字 (不 限于 系 
统 命令 } ， 系统 就 会 从 随机 文件 中 把 包含 该 关键 字 的 各 行 部 显 术 出 来 . 例 
如 ， 发 命令 apropos graphics ,会 显示 出 所 有 联机 文件 中 含 graphics 一 
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字 的 行 。 如 果 输 出 行 数 太 多 ， 还 须 进一步 缩小 查询 范 冉 ，。 


82.2 语言 和 软件 


基于 大 规模 集成 电路 的 计算 机 硬件 ，-- 般 用 户 记 无 用 武之 处 - 出 户 
面临 的 是 名 目 繁 多 的 软件 上 . 层 建 筑 . 即使 自己 不 动手 编写 程序 ， 了 世 守 对 语 
言 和 软件 有 一 些 粗 线条 的 概念 . 

20 世纪 50 年 代 后 期 兴起 的 FORITRAN 语言 ， 带 有 强烈 的 其 国 实 用 
主义 色彩 . 它 的 有 限 的 数据 结构 和 种 种 副作用 ， 注 定 了 终 将 被 取 找 的 前 
3t. PRali pA BOBRVEQURDS, WERA XIBÜS—TEX, EXT. E 
WA. JA FORTRAN 77 到 FORTRAN 90 ， 越 改 越 像 C 语言 ，C 语 
AM UNIX 本 是 挛 生 兄弟 ， 在 数据 结构 和 运行 效率 上 都 比 FORTRAN 上 略 
胜 一 筹 。 本 书 作 者 之 一 曾 是 我 国 第 一 本 FORTRAN 语言 教科 书 ”的 撰写 
A. JA 1987 年 起 就 改 用 C 语言 编写 研究 工作 中 的 各 种 程序 . 

然而 , 这 一 切 都 属 玉 过 去 的 发 展 阶段 , 即 面 向 过 程 的 程序 设计 {Proce- 
dure-Oriented Programming ， 简 称 POP). 所 谓 过 程 ， 即 相对 独立 的 蚌 
数 和 子 程序 . 一 个 完整 的 程序 由 大 量 过 程 组 成 。 数 据 结构 都 是 具体 的 。 不 
阅读 整个 程序 就 无 法 知晓 如 何其 工程 序 前 面 定义 的 数据 ， 各 个 过 程 的 调 
用 顺序 虽 能 依照 执行 中 的 情况 和 参数 变化 有 所 变动 ，、 但 不 能 赵 出 事先 设 
计 好 的 总 框架 . 

作为 对 比 , 请 思考-- 下岗 在 大 家 都 很 熟悉 的 窗口 系统 , 无 沦 是 PC 上 
的 微软 视窗 ， 还 是 UNIX 工作 站 上 的 X 窗口 ， 本 身 都 是 由 程序 实现 的 . 
然 商 ， 一 位 用 户 会 打开 多 少 窗口 、 打 开 哪 些 窗口 、 按 何 种 赃 序 打开 和 关 
肉 ， 在 窗口 里 做 些 秆 么 ， 这 一切 都 无 法 事先 规定 。 用 传统 的 POP 思想 编 
写实 现 窗口 系统 的 软件 ， 会 遇 到 不 少 恩 难 . 面向 对 象 的 程序 设计 (Object- 
Oriented Programming, ， 简 称 OOP) 应 运 而 生 . 概括 起 来 ， OOP 就 是 三 
件 事 : 

第 一 ， 数 据 结 构 抽 和 象 化 ， 特 定 的 数据 结构 加 上 允许 在 此 结构 上 执行 
的 操作 ， 称 为 对 象 。 对 象 是 按 类 分 层次 定义 的 . FER RAR] E W tE 


5 giat, «FORTRAN 程序 设计 讲义 让 ， 《计算机 参考 资料 》 1977 年 第 1/2 W, NU 
部 第 15 研究 所 出 版 ，# FORTRAN 77 程序 设 汗 》 ， 人 民有 邮电 出 版 社 、 1980. 1987. 
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JR, ERMAR. PLAGES XE d 1 ETF EC. 
第 二 ， 信 号 驱动 : 下 -- 个 接受 来 自 键盘 、 鼠 标 等 设备 信号 输入 的 模 
块 ， 它 判断 信号 来 源 和 指向 邦 个 对 象 ， 并 通知 调度 程序 . 
第 三 ， 调 度 程序 : 它 是 始终 在 运行 的 程序 ,无 信 叶 时 空转 ， 台 信号 时 
激活 相应 的 对 象 . 
从 20 世纪 90 年 代 初 ， OOP 成 为 程序 设计 的 主流 思想 ， 简 单 情 况 
和 基本 文献 可 以 参看 : 
R-51 张 淑 淮 、 郝 柏林 ，“ 面 向 对 象 的 程序 设计 "”，《 计 算 物 媒 》 9 (1992) 
343 ~ 345, 
从 具体 实现 看 ，C 语言 的 struct 数据 结构 ， 加 上 操作 【有 呈 也 叫 方 
法 ) 就 成 为 对 象 。 因此 ， 从 C 语言 发 展 出 来 的 C++ 就 成 为 主要 的 DOP 
语言 之 一 。 C++ 的 编译 程序 可 以 处 理 普 道 的 C 语言 程序 . GNUWare 
[R-62] 中 的 g++ 是 大 们 广泛 使 用 的 免费 编译 程序 ， 
窗口 系统 与 图 形 技术 密切 相关 。 有 几乎 所 有 的 UNIX 丁 作 站 都 使 用 了 
一 套 称 为 其 窗口 系统 (X Windows Systems) 、 简 称 X 系统 的 基本 图 形 软 
件 ， 麻 省 理工 学 院 1987 年 颁布 的 第 11 R&, BB Xi1 ， 早 就 是 工作 站 行业 
的 工业 标准 . 现在 常见 的 是 X11R6.4 ， 即 第 11 版 第 6.4 PKT. X 系统 
WEA. H., iA pHK E Xlib, {EÈ Hik H KAR E HEX i HH 
PEF, 于 是 又 有 基于 Xlib 的 Xtoolkit 上 层 建 筑 。 Xlib 和 Xtoollót 都 属 
于 可 自由 下 载 的 公开 软件 。 请 访问 以 下 网 址 : 
R-52 X 系统 协会 (X Consortium) 的 网 址 (请 注意 其 /R6doc/ 了 目录 和 
Release Notes) : 
http://www.x.org/download.htm 和 /resources.htm 
ftp://ftp.x.org/ 


在 每 台 UNIX 工作 站 的 系统 文件 日 录 中 , 都 可 以 找到 Xlib 和 Xtoolkit 
所 在 的 子 目 隶 。 实 际 上 ， 在 Xtoolkit 和 用 户 所 看 到 的 窗 上 、 菜 单 、 按 钮 
之 间 ， 还 有 一 层 界面 。 目前 最 常用 的 界面 都 是 商 业 性 的 ， 如 Sun 工作 站 
的 Openwin ， 或 SGI 工作 站 的 Motif 界面 。 它 们 规定 了 各 月 窗 忆 系统 的 
RR (look and feel} 。 麻 省 理工 学 院 的 义 系统 软件 中 带 有 一 个 功能 不 及 
Openwin 或 Motif 强大 的 免费 界面 ， 称 为 Athens ， 可 在 网 址 [R 52] 或 工 
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作 站 的 系统 文件 中 找到 .互联 网 上 还 上 朋 一 些 “ 土 造 ” i35 vh VERI, (n n ds 
拟 Motif he mR MAY LessTif ， 可 下 载 一 试 ， 
R-53 LessTif 是 免费 的 Motif 界面 的 模拟 程序 .网址 : 
http://www.lesstif.org/ 
http://www .hungry.com:8000/ 


—NMEHE PU BARYREX 系统 及 其 界 而 .。 但是， 如 内 要 把 自己 的 杂 个 在 
工作 站 上 行 之 有 效 的 程序 ,发展 成 供 公 众 使 用 的 软件 系统 , Lih EaBR YU 
个 实验 室 的 生物 信息 环境 ， 这 就 成 为 应 当 有 所 规划 的 事情 . 

OOP 概念 影响 了 软件 技术 的 各 个 方面 ， 出现 了 一 批 前 而 冠 以 OO 的 
新 缩写 , 包括 数据 库 技术 ,生物 数据 库 的 发 展 ， 最 初 多 是 把 原始 数据 组 织 
在 约定 格式 的 纯 文 本 文件 中 ， 并 没有 引用 很 多 数据 库 续 术 . BE i RN 
增 大 之 后 ， 估 们 不 得 不 注意 把 生物 数据 库 的 进一步 发 展 纳入 现代 数据 库 
技术 的 和 主流、 例如 采 丹 关系 数据 库 和 符合 标准 查询 语言 (Standard Query 
Language ， 简 称 SQL) 的 协议 . 大 的 生物 信息 中 心 、 如 GSDB [R-214] 使 
Hj Sybase 公司 的 技术 ， 而 EBI [R-131] 则 引用 Oracle MEIR R. Er) 
数据 库 也 开始 设计 成 OO 型 的 ， 转 录 因 子 数 据 库 OOTEFD [R-222] 就 是 -- 
H. 地 重要 的 例子 ， 当 推 最 早 为 秀 本 线虫 (C. elegans) 基因 级 计划 发 展 的 
ACeDB [R-851]. 可 以 免费 下 载 的 ACeDB 数据 峰 ， 现 丰 己 垃 几 于 许多 蒜 
他 基因 组 计划 ， 包 括 在 Sanger [R-299] 中 心 弓 织 每 条 人 类 染色 体 的 序列 
数据 . 我 们 讲 了 这 些 似乎 与 一 般 用 户 无 关 的 话 ， 是 要 提醒 大 家 主意， 在 生 
物 信息 学 工作 起 步 甚 晚 的 中 国 ， 首 先 蔓 建立 国际 上 各 种 重要 数据 库 的 人 蚀 
象 ， 当 然 具 能 照 用 人 家 现成 的 技术 框架 . 然而 , 一旦 自己 动手 研制 新 数据 
库 ， 就 应 当 从 最 先进 处 着 手 ， 采 用 OOP 概念 。 ACeDB 是 值得 借鉴 的 良 
好 起 点 。 

在 网 络 环境 下 跨越 平台 、 随 遇 市 安 的 软件 日 益 增加 .这 里 必须 提 到 
体现 OOP 概念 的 Java 语言 。 Java 语言 不 依赖 平台 的 原因 ， 在 于 它 先 把 
程序 编译 成 普 适 的 “ 字 节 三” (bytecode) ， 再 出 各 平台 上 的 解释 程序 去 
块 行 。 解释 执行 使 速度 下 降 ， 这 曾 是 对 Java 语言 的 主要 批评 . fA. Bf 
着 CPU 速记 的 提高 ， 速 度 限 制 将 不 再 突出 . Java 语言 在 保证 安全 的 昼 
提 下 ， 大 为 增加 了 网 络 上 的 动态 交互 作用 . 从 发 展 看 ， 即 使 自己 不 用 它 编 
GEF, AWETE Java 软件 的 事 也 会 成 为 家 常 便 饭 。 Java 软件 分 为 
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Java Applet 和 Java Application BN AX. dij & dt xe f£ B0 BK RS Eje dr. 
用 户 看 起 来 像 是 在 自己 的 浏览 器 里 运行 ， 后 者 要 下 载 到 本 地 计算 机 上 小 运 
行 ， 这 时 要 求 本 地 计算 机 已 安装 支持 Java 的 软件 系统 。 如 果 本 地 计算 机 
上 还 没有 相应 的 系统 ， 可 以 免费 下 载 : 

R-54 Java Kj hk: 
ftp://java.sun.com (/pub/) 
ftp://www.blackdown.org (/pub/Java/) 

R-55 Sun 公司 免费 提供 一 -在 Java 开发 十 其 (Java Developer's Kit ， 简 称 
JDK), ， 其 中 包括 了 Java 编译 程序 javac 、 解 释 程 序 java, frii RUY 
jdb 和 appletviewer PIF ELA. HF MA E FRES FOGA 
平台 的 JDK 版 本 : 
ftp://ftp.javasoft.com (/pub/) 

28 8 T e P HR FECE HR E ZB] B E T3, AAIR HI S 0 Perl 或 
Python iB 3. £i — HW ex "e AH EP E Py fs EF ^k Po ib I A i 
言 的 程序 文本 : 

R-56 BioPerl 纸 织 ， 专 门 区 流 用 于 生物 信息 学 、 遗 传 学 和 生命 科学 研究 
的 Perl ).R.. 1999 年 还 召开 过 BioPerl99 [RE Zr iX... 请 参看 网 址 : 
http://www.bioperl.org/ 

R-57 顺便 指出 ， 在 华盛顿 大 学 Lindberg ff] 4- A qu VC [E £6 — 29€ 4: 994 L5 
用 的 Perl Scripts, WILL F3. hl. 
http://www.id.wustl.edu/"lindberg/docs/programs/ 

R-58 BioJava £H£8. ht: 
http://www.biojava.org/ 

R-59 BioPython 4122, Jw hi: 
http://www.biopython.org/ 

R-60 BioXml 组 织 ， XML 是 在 网 络 环境 下 描述 数据 的 一 种 标准 语言 ， 朋 
前 哩 在 生物 信息 学 中 几 得 不 多 、 但 BioXML 0 IE Af DE HR OU 
入 .请 参看 网 址 : 
http://www.bioxml.org/ 

R-61 BioCORBA 组 织 . 关于 CORBA 请 参看 (R-850]. BIHE: 
http://biocorba.org/ 
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此 外 ， 还 可 以 注意 在 关 会 以 [R-828]. 

这 里 应 治 特 别提 一 下 免费 软件 首先， 知识 产权 并 不 意味 着 事 事 收 
费 ， 更 重要 的 是 尊 曾 作者 的 首创 和 和 轩 名 ,应当 说 ， 知 识 共 襄 是 大 类 社会 
发 展 的 主流 。 国际 上 一 颠 有 -- 派 软件 作者 主张 软件、 包括 源 程序 hy 
当 自 由 免费 交流 ,特别 是 以 Richard Stallman 和 他 在 1984 年 建 六 的 Free 
Software Foundation {FSF) 为 代表 的 群体 . 英文 free — ip E S 28 UI ER HER 
EEX, UUEÉIS A PESOS. REEE SS TERSHIL "EHI Fl he 
费 ” 二 词 ， 读 者 最 好 作 两 者 兼顾 的 理解 . 自 出 软件 的 提倡 者 们 的 十 要 办 法 
是 编写 了 许多 锅 质 量 的 免费 程序 ， 这 些 软件 通称 GNU 或 GNUWare : 

R-62 GNU g& GNUWare 、 包 括 著 名 的 编辑 程序 Emacs 、C 和 C++ 
语言 的 编译 程序 g++ 、C 和 C++ 的 浙 数 岩 、 绘 图 软件 Guuplot , 
显示 PostScript 文件 的 GhostScript 和 GhostView ,. X fH Sg FO RH 
程序 gzip ， 以 及 GNU/Linux 系统 等 . 

FSF 明显 起 到 欧 作 内 ，- 一 是 促进 了 商业 性 软件 的 质量 和 服务 ， 二 必 
为 学 术 界 提供 了 一 种 龟 疝 的 标准 . 我 们 在 欣赏 和 享用 自由 软件 对, Iz 2€ 
重 作者 的 劳动 ， 遵 守 FSF 的 自由 软件 许可 协议 和 传播 他 们 的 主张 ， 详 细 
的 软件 目录 和 FSF 的 方针 ， 可 以 参看 : 
R-63 FSF 自由 软件 基金 会 的 网 页 : 
http://prep.ai.mit.edu/ 
R-64 4i 9 HITEH FR GNU 软件 的 服务 器， 这 里 略 举 数 例 : 
ftp://ftp.uu.net (/systemsgnu/) 
ftp://utsun.s.u-tokyo.ac.jp 
ftp://cair-archive.kaist.ac.kr 
ftp://ftp.cs.columbia.edu 
GNU A disk (pF RE ED B bs ERREA. WA R UNIX 的 
命令 (据说 GNU 的 意思 万 是 GNU is Not Unix). Elit, GNU 程序 多 数 
针对 UNIX 平台 . 

至 于 PC 机 和 和 微软 视窗 ， EERE A-team, iE gi 
Aih e: 

R-65 tucows 公司 以 及 它 存 世界 各 地 区 包括 我 国 的 镜 象 点 ， 列 出 了 大黄 商 
Wiki, IEEE iX (om RHR, GE BLA PITE, i4 5 头 “ 生 ”的 质 
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量 最 好 . 总 公司 网 址 ， 

http://www.tucows.com/ 

共享 软件 (shareware) 可 以 自由 下 载 ， 使 用 满意 后 再 付费 ,通常 比 商 
业 软 件 便宜 . 许多 商业 软件 也 有 免费 试用 期 . 


$2.3 互联 网 和 浏览 器 


当今 世界 上 绝 大 多 数 计 算 机 都 已 联接 成 网 。 没 有 计算 机 网 络 ， 就 谈 
不 上 生物 信息 学 . 

国际 互联 网 的 物质 基础 ， 当 然 是 中 各 种 有 线 (光缆 、 电 缆 、 电 话 线 ) 
和 无 线 (微波 、 卫 星 ) 通信 线路 联接 起 来 的 计算 机 资源 .一 只 联接 成 网 ， 
它 就 可 以 支撑 各 种 各 样 的 由 软件 实现 的 “上 层 建筑 "。 对 用 广 说 求 ， 上 蝴 
建筑 中 最 重要 的 软件 是 网 络 浏览 器 。 


2.3.1 TCP/IP 和 IP 地 址 


网 络 上 从 各 式 各 样 的 计算 机 平台 , 局域网 之 间 也 可 能 有 茎 寞 .为 了 下 
确 交 换 信 息 ， 必须 遵守 共同 的 网 络 协 议 . 日前 使 用 较 多 的 TCP/IP 实际 上 
是 两 个 屋 次 的 协议 : 数据 被 分 解 并 包装 成 “数据 包 *，TCP (Transmission 
Control Protocol) 控制 数据 包 的 传输 ， 市 IP (Internet Protocol) 负责 为 数 
据 包 寻找 传送 途径、 
网络 土 鲜 一 台 计 算 机 都 有 一 个 唯一 的 IP 地 址 。 人 例如， 北京 大 学 生 
物 信息 中 心 [R-166] 服务 器 的 IP 地 址 是 202.112.7.9 f IP 地 址 还 有 
一 个 用 字母 拼写 的 “域名 .北大 CBI 服务 器 与 IP 地 址 等 价 的 万 名 是 : 
cbi.pku.edu.cn. 这 个 地 址 从 右 往 左 , 表示 由 大 到 小 、 由 整体 到 毅 域 的 网 
络 区 域名 称 或 “域名 ”: .cn 是 中 国 ，edu.cn 是 中 国教 育 网 ，pku.edu.cn 
是 中 国教 育 网 的 北京 大 学 局 万 网 ，cbi.pku.edu.cn 是 北京 大 学 生物 信息 
中 心 。 网 络 和 IP 地 址 都 是 分 层 管理 的 . 即使 是 一 台 PC 机 首次 联网 、 也 
村 自动 获取 或 出 局域网 管理 员 分 配 一 个 新 的 TP 地址 . 等 个 网 络 岩 次 都 月 
“域名 服务 器 ” (Domain Name Server ， 简 称 DNS) 。 当 用 户 要 求 使 用 菜 
^ IP 地 址 交换 信息 时 ，DNS 会 逐 级 往 上 查找 ,直至 找到 或 返 答 柱 找 不 到 
威名 的 通知 。 讽 络 上 重要 的 服务 器 通常 保持 IP MELZEGUARIS ACECODOE, hi 
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实际 使 用 的 计算 机 亲 能 央 更 新 换代 或 重新 纠 织 而 变换 由 数字 构成 的 “ 绝 
xp" IP 地 址 . AE, ABHI a REIES IP 地 址 对 应 的 缩写 域名 ， 

在 互联 网 上 按 用 户 名 和 IP 地 址 传送 信息 的 最 简单 办 法 是 收发 电子 
邮件 (E-mail) , 用 telnet 远程 登录 到 其 他 计算 机 去 运行 作业 或 用 fep [n] px 
处 的 计算 机 交换 文件 ， 也 都 要 用 到 IP 地 址 。 这些 在 后 面 还 有 专 季 介绍 . 
这 几 种 手段 的 局 限 性 在 于 用 户 必 须 事先 知道 对 方 的 IP 地 址 . 


2.3.2 gopher 服务 器 


历史 上 第 一 个 协助 内 户 在 互联 网 的 江 洋 大 海中 搜寻 所 篆 信 筷 的 工具 
是 gopher 服务 器 . 所 有 的 gopher 网 点 ， 逮 辑 上 有 联接 成 树 状 结构 . 骨 户 可 
在 gopher 协助 下 沿 树枝 树干 搜索 所 月 gopher 服务 器 ,查找 所 需 的 信 积 ， 
而 不 必 关 心 信息 所 在 的 实际 地 址 。 虽然 gopher 很 快 就 被 功能 蝎 为 强大 的 
WWW 及 其 浏览 器 超过 . 但 并 未 被 完全 代替 , 对 于 受 重 件 图 形 功 能 限制 ， 
只 能 依靠 纯 文 本 文件 的 用 户 ， gopher 仍 不 失 为 一 种 方便 的 网 络 界 所 。 因 
此 ， 多 数 网 点 保留 了 原 有 的 gopher 服务 器 . 我 们 不 再 介绍 gopher ， 但 给 
出 可 以 免费 下 载 gopher £k fF 69 abl: 
R-66 gopher 软件 网 址 ， 
ftp://boombox.micro.umn.edu (/pub/gopher) 


2.3.8 WWW in HTML 


WWW 是 World Wide Web 的 缩写 , 有 时 也 写作 www 或 简称 Web( 77 
HRJ). 与 gopher HR RATE, WWW 的 每 个 结 点 在 逻辑 上 都 与 任 
何其 他 结 点 保持 联系 ，“ 透 明 ” 地 交换 信息 . 这 就 从 信息 组 织 和 显示 两 
方面 提出 新 的 要 求 . 首先， 从 术语 讲 ， 几 是 与 跨越 网 络 “ 透 明 ” 交 换 有 关 
的 文件 、 链 接 等 均 冠 以 “ 超 ” (hyper) 字 头 ， 如 超 文本 (hypertext) 、 超 
链接 (hyperlink) 、 超 文本 标注 语言 (HyperText Markup Language ， 简 称 
HTML 或 html) 、 超 文本 传输 协议 (HyperText Transfer Protocol , 48 53 
为 HTTP gk http) 等 . 任何 一 个 结 点 上 准备 提供 给 WWW 上 其 他 用 户 共 
享 的 信息 ， 必 须 用 HTML 语言 加 以 标注 。 其 所 以 叫 标注 (markup), Æ 
因为 在 最 简单 情况 下 ， 只 须 把 纯 文 本 文件 头 尾 和 其 中 段落 前 后 如 一 些 标 
签 ， 它 就 成 为 超 文本 了 . 
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由 于 生物 信息 江 作 每 天 要 同 网 页 打交道 ， 最 好 知道 一 点 HTML 的 基 
本 概念 . 作为 最 简单 的 起 文本 文件 实例 , 我 们 为 自己 制作 一 个 朴实 无 华 的 
网 页 。 用 任何 熟悉 的 编辑 程序 ， 和 输入 如 下 的 文件 : 
«HTML» 
XHi»Welcome to Bai-lin HAO's Homepage!«/H1» 
<BODY> 
<P>Brief «A HREF="vitae.html">vitae</A>.</P> 
<P>Fields and recent reserach <å HREFz"interest.html"» 
interests«/A». 
XP»Selected title of recent <A HREF*"shortlst.html"» 
publications«/A». 
<P>My favorite biolink is «A HREF»"uvv.cbi.pku.edu.cn"» 
CBIX/A» at Peking University. 
</BODY> 
</HTML> 


给 这 个 文件 起 名 字 index.html] (UNIX 系统 ) 或 index.htm (PC 系 
统 ) ， 并 且 把 它 放 到 本 单位 网 络 管理 员 规 定 移 公开 子 目录 中 。 例 如 ， 在 
UNIX 工作 站 上 ，、 这 可 能 是 名 为 /public.html 的 子 目录 . 以 上 简短 文件 清 
楚 说 明了 HTML 语言 的 风格 。 它 是 用 一 批 成 对 的 “标签 ”组 织 起 来 的 . 
标签 的 种 类 很 多 。 表 2.2 给 出 几 对 常见 的 标签 . 


*2.2 最 常见 的 几 对 HTML 标签 


标签 说 明 

(HTML) o (/HTML) ”中间 是 超 文 本 文件 
(BODY) .. ...(/BODY) 中 间 是 文 性 主体 

(P) o (PP) 中 间 是 -- 节 ，《 /P) 可 省 略 
(b uu) nmn { AA) 中 和 间 是 -- 个 超 链接 

(Hi) ee ( H1) H i OACEÍERREE 

(i) eoo {i} 用 意大利 体 即 斜体 

(b) se ( /b) 用 黑体 


最 重要 并 且 应 当 特 别 说 明 的 ， 是 形成 超 链 接 的 标签 
(A HREF-"www.cbi.pku.edu.cn")CBI(/4) 
其 中 只 有 CBI 会 被 浏览 器 用 特殊 的 方式 显示 出 来 , 或 用 蓝 色 或 下 面 划 线 . 
STOP). (As ooo UA) 外 面 的 文字 ， 浏 览 器 照 原样 显示. 


22 €2* iXxHuntezXmsg 


用 鼠标 点 击 CBI ,浏览 器 就 自动 去 访问 “ 超 引 用 ”HREF= 指出 的 IP 地 
址 ， 即 北京 大 学 生物 信息 中 心 的 网 页 。 超 链接 也 可 以 指向 本 地 文件 . 前 面 
HTE, WIH vitae.html 、 领 域 interest.html f f£ shortlst.htm! 三 个 超 
文本 文件 都 同 index.htm) 在 一 个 子 目 隶 里 ， 在 点 击 vitae, interests 和 
publications :z^ 5E 2 —8], Er 9I il. 

我 们 看 到 ，HTML 语言 并 不 用 来 写 任何 文件 主体 . 不 管 是 纯 文 本 文 
件 ， 还 是 图 形 、 动 画 、 点 音 、 电 影 等 “多 媒体 ”文件 ， 只 要 恰当 地 如 上 标 
签 ， 就 成 为 有 声 有 色 、 可 以 被 浏览 器 跨越 网 络 访问 的 超 文本 文件 , 这 个 例 
子 只 是 说 明 ， HTML 语言 入 门 并 不 难 ， 深 造 也 是 办 得 到 的 .这 里 只 点 一 
本 参考 书 : 
R-67 Chuck Musciano, aud Bill Kennedy. HTML. The Definitive Guide, 2nd 

ed., O^Reily, 1997. 

实际 上 ， 专 门 学习 HTML 语言 的 必要 性 不 大 ,目前 有 许多 为 一 般 人 
用 的 工具 . 例如 ， 微 软 公 司 的 FrontPage 98 和 MacroMedia 公司 的 Dream 
Weaver ， 可 以 帮助 人 们 制作 网 页 和 管理 网 站 ， 


2.3.4 浏览 器 和 URL 


互联 网 与 用 户 之 间 最 重要 的 接口 软件 是 测 览 器 (browser). WWW 
上 的 超 文本 文件 由 浏览 器 访问 各 显示。 目前 最 常用 的 浏览 器 月 两 种 : 

R-68 Netscape Navigator fl Netscape Communicator, £ji&iH T$ 
种 计算 机 平台 的 版 本 ， 可 以 免费 下 载 。 网址 是 : 
http://ww.netscape.com/ 

用 户 应 注意 经 常 更 新 软件 版 本 , 每 一 新 版 都 随 带 提供 许多 可 选择 下 载 
的 应 用 程序 . 本 书 作 者 比较 喜欢 使 用 Netscape. 我 们 现在 使 用 1999 
年 10 月 发 行 的 Netscape Communicator 4.7 版 本 . 

R-69 Internet Explorer ， 这 是 微软 公司 为 其 各 种 视窗 系统 提供 的 浏览 
器 , 因此 没有 工作 站 版 本 . 它 通 常 随 视窗 系统 提供 ， 也 可 以 从 微软 的 
网 址 : 
http://www.microsoft.com/ 


免费 下 载 较 新 的 版 本 。 本 书 作 者 使 用 的 是 Internet Explorer 5.0 版 。 
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现在 的 调 览 器 自动 与 许多 应 用 软件 密切 含 作 . 8010, HOC FAR 
PDF [R-81] 文件 时 ， 浏 览 器 会 自动 调 出 Acrobat Reader 来 显示 它 ;， 如 果 
计算 机 上 没有 Acrobat Reader ,浏览 器 会 协助 用 户 从 Adobe 公司 的 网 页 
下 载 。 这 样 下 载 的 Acrobat Reader 留 在 用 户 的 计算 机 里 ， 成 为 本 以 单独 
使 用 的 软件 . 因此 ， 对 许多 几 户 而 言 ， 浏 览 器 就 是 其 所 见 所 峰 的 束 个 计算 
EL. 现在 形形色色 的 网 页 往往 有 大 量 彩 色 图 形 ， 其 中 不 少 是 丫 业 六 告 。 线 
路 传输 条 件 不 好 时 , dH BH IBI, 有 些 网 页 允许 用 户 选择 图 形 展 较 少 的 
方案 。 如 果 图 形 不 重要 ， 还 可 以 选用 只 显示 字符 信息 的 浏览 器 ， 例 如 ， 
R-70 Lynx. 这 个 字符 信息 浏览 器 ， 可 从 网 二 免费 于 载 : 

http://lynx.browser.org/ 

ftp://ftp2.cc.ukans.edu (/pub/lynx/) 


浏览 器 使 用 统 -- 资 源 定 位 符 URL(Universal Resource Locator) , o 
指定 按 何 种 信息 交换 协议 ， 向 哪 一 个 网 址 发 送 、 读 取 或 交换 信息 . 目前 常 
Hifi URL 有 以 下 6 类; 

R-71 http: fk HTTP $ X Aft 88 HN d ei Ls B C RA EE Ip Bb de Ht 
对 方 公开 的 用 HTML 标注 的 网 页 。 例 如 、 读 者 可 试 通 北京 大 学 生物 
信息 中 心 的 网 页 ， 其 URL fe: 
http://www.cbi.pku.edu.cn/ 

由 于 这 是 景 常 几 的 二 作 方 式 ， 凤 使 省 上 http 或 www ， 许 多 浏览 器 
都 能 正确 处 理 . 

R-72 ftp. 按 ftp 文件 传输 协议 从 指定 网 址 的 ftp 服务 器 读 取 其 公斤 日 录 
中 的 文件 . 例如 ， 从 北京 大 学 生物 信息 中 心 的 ftp 服务 器 下 载 文件 
H: 
ftp://ftp.cbi.pku.edu.cn 
详 见 2.72 小 节 关 于 ftp 的 描述 . 

R-73 gopher: fè 2.3.2 小 节 中 介绍 的 gopher 协议 读 取 信息 。 例如: 
Egopher://gopher.ebi.ac.uk/ 

R-74 mailto: idt FARES, Bid zsBRapuürA s kam. SE 
再 继续 浏览 。 例 如、 用 : 
mailto:somebodyGOsomeuniversity.edu.cn 


给 某 校 时 大 发 电 子 邮件 ， 注意 mailto: 之 后 不 写 //. 
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R75 news: PZH IYI Ux (Usenet Protocol) 阅读 一 定 新 闻 组 的 网 页 。 例 
Au, H: 
news:bionet.software.www 
Ur pel X TERIOR E3900 40 (请 参看 [R-807]) .. HE news: 之 
AubWó//. 

R-76 telnet . 近 程 登录 到 指定 IP 地 址 的 计算 机 上 去 执行 作业 - 当然 ， 必 
顷 事 先 在 远程 计算 机 上 壮 开 好 几 记 帐号 并 知道 听 令 。 例 如 ， 
telnet:mycomputer.myuniversity.edu.cn 
in Ze eum 271-5. 

AE p Ao 8 M TE 09 po] 5 20] A a, A 6D" XE PE TE ££" (American OnLine, 
简称 AOL) in 3 88 Ane] i f] JR ERE (R 1; 09 e Pt ELA. 但 是 ， 多 数 生物 
信和 总 网 页 的 设计 并 未 考虑 这 类 测 览 器 的 特点 . 我 们 建议 读者 使 用 标准 的 
浏览 器 ， 如 Netscape [R-68] 或 Internet Explorer [R-69] ， 好 在 它们 都 是 
HT EL fo Pe FX S FE. 


2.3.5 ”文件 的 下 载 和 上 载 


TERI vC FERII d BI CA FAR (download) 的 文件 ， 用 鼠标 丰 键 点 击 就 坡 
调 到 窗 呈 中 供 阅读 ， 刀 果 用 最 标 左 键 点 击 同 时 按 下 “上 挡 ” (shift) 键 ， 
浏览 器 就 准备 把 该 多 件 存 到 盘 上 . 这 时 会 出 现 关 于 子 目 录 、 义 件 格 式 等 的 
对 话 窗 [1。 用 广 正确 码 签 后， 还 会 开 小 窗口 显示 下 载 进 程 . 

使 用 生物 信息 网 页 时 ， 艇 常见 的 一 种 “上 载 ” (upload), 、 是 出 用 广 
提供 一 条 核 通 或 蛋 和 白质 序列 去 散 数 据 库 查 竟 或 联 配 . 这 时 常常 用 两 种 方 
法 之 一 : 

第 一 ， 使 用 视窗 系统 的 前 (cut) 、 抄 (copy) 和 贴 (paste) 的 功能 ， 把 
序列 从 用户 的 -一 个 窗口 中 涂 黑 后 更 (H) 下 来 ， 实 际 上 是 送 入 视窗 系统 的 
缓冲 存储 器 ， 再 贴 到 网 页 中 己 显 未 出 的 输入 窗口 。 对 于 不 太 长 的 序列 ， 这 
样 做 很 方便 . 

第 二， 网 页 中 显示 一 个 上 载 窗 日， 有 用户 可 用 浏览 目录 的 方法 找到 
土 载 的 序列 文件 、， 把 文件 名 字 填 写 进去 ， 再 按 提交 (submit) H805. H 
上 载 法 可 以 提交 较 长 的 序列 ， 
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2.3 一 些 网 上 “搜索 器 ”的 地 址 


名 称 ”地 址 特色 

Yahoo www.vahoo.com 可 按 分 类 搜索 
AltaVista altavista.com 证 允许 访问 新 闻 组 
Lycos lycos.cs.cmu.edu np fex at x 
Infoseek www.infoseek.com 有 阿 址 点 击 百分比 
Excite www.excite.com ap PL qx 
About About.com 可 解释 名 词 或 概念 


2.3.6 网 上 “搜索 器 ” 


互联 网 上 有 五 花 八 门 的 海量 信息 ， 查 找 真正 有 用 的 网 点 并 非 易 事 . 
现在 网 上 有 各 式 各 样 的 “搜索 器 ” (searching engine) ， 免 费 帮助 用 户 搜 
FREE. 表 2.3 开 列 了 一 些 搜索 器 的 网 址 . 通常 只 要 按 浏 览 器 的 “ 搜 
R” (Search) 按钮 ， 就 会 显示 出 一 批 搜索 器 的 名 字 供 选用 。. 

使 用 这 些 搜索 器 时 ， 应 注意 几 件 事 . 

第 一 ， 要 迅速 缩小 主题 范围 ， 从 Science 到 Biology 到 Molecular Bi- 
ology 到 RNA ， 不 可 泛泛 查找 。 

第 二 ， 要 用 专业 而 非 一 般 的 关键 字 。 有些 搜 索 器 允许 若干 关键 字 的 
逻辑 组 合 ， 要 恰当 利用 本 不 会 适得其反 .有 时 可 加 上 引号 、 如 “ tandem 
repeats ”表示 只 找 两 字 的 此 种 霄 定 组 合 ， 排 除 单个 出 现 的 情形 . 

第 三 ， 搜 索 结果 中 往往 有 许多 重复 出 现 的 网 址 。 例 如 ， 用 Yahoo € 
1$ bioinformatics ， 返 回 的 一 吉 密 个 网 点 中 近 一 半 重 复 . 

第 四 ， 这 些 搜索 器 公司 ， 主 要 靠 广告 费 支持 .。 因此, 它们 的 网 页 .上 有 
各 种 五 彩 缤纷 的 诱 人 广告 用户 要 慎重 自持 ， 切 匆 落 入 “陷阱 *， 浪 费 光 
B. 


82.4 常见 的 文件 类 型 


信息 通常 以 文件 形式 保存 各 传输， 文件 所 保存 的 不 只 是 可 读 的 文字 
信息 ， 图 形 、 相 片 、 动 画 、 音 乐 、 影片 等 等 ， 都 下 成 为 文件 . 许多 文件 类 
型 可 由 通用 的 文件 名 后 缀 识别 . 例如 、 最 简单 的 “ 纯 文 本 ” (plain text) 
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文件 ， 后 缀 是 .txt 。 它 不 含 任何 字体 、 字 号 之 类 的 格式 信息 .文字 处 理 
软件 ， 如 微软 的 Word ， 产 生 带 种 种 格式 的 文件 ， 通 常 后 级 是 doc. fA 
mi, TE UNIX 系统 中 带 后 级 .dec 的 行 往 是 各 种 说 明 书 ， 遂 常 内 十 纯 文 本 
文件 . 

特定 的 软件 系统 接受 和 产生 一 定 类 型 的 . 带 特 定 后 缀 的 文件 . 例如 ， 
常用 的 排版 软件 TEX 和 IXTEX 要 求 带 .tex 后 组 的 纯 文 本 输入 ， 产 生 后 缓 
为 .avi 的 “与 设备 无 关 ” 的 输出 文件 . 还 会 产生 .aux 和 .log 类 型 的 辅 
助 文件 . 顺便 指出 ， 本 池 是 由 作者 们 用 中 文 BTEX 系 统 上 自已 排 版， 按 手 稿 
Ep fig. PrRISKPETL. 
R-77 982). 张 林 波 等 € CCT 中 外 文科 技 激光 把 排 系 统 》, 海洋 出 版 社 ， 

1993 、 网 址 : 

ftp://ftp.cc.ac.cn (/pub/cct/msdos/) 


Xm PostScript 最 初 是 Adobe 公司 设计 的 一 种 描述 由 义 字 和 黑白 
或 彩色 图 形 组 成 的 页 面 的 语言 ， 现 在 几乎 已 经 成 为 一 切 页 面 输出 设备 如 
打印 机 的 工业 标准 . 这 种 义 件 通常 由 特定 的 软件 建立 ， 例 如 许多 绘图 软 
件 或 生物 计算 的 GOG [R-792] 软件 包 ， 允 许 玫 户 把 输出 “设备 ”选取 为 
PostScript ， 相 应 文件 后 级 为 .ps . 还 有 一 种 包装 起 来 的 (encapsuled) 
PostScript 文件 , 可 以 作为 整体 放大 .缩小 、 旋转、 变形 或 插入 其 他 文件 ， 
HEA .eps . 

其 实 ， PostScript 本 身 是 一 种 程序 设计 语言 ， 花 一 点 功 大 就 可 以 掌 
握 。 最 主要 的 参考 书 是 : 

R-78 Adobe Systems Inc. PostScript Language. Tutorial and Cookbook, 

Addison- Wesley. 

R-79 Adobe Systems Inc. PostScript Language Reference Manual, 2nd Ed. 

Addison- Wesley. 

.ps 和 .eps 都 是 由 ASCII 字符 组 成 的 纯 文 本 文件 ， 知 道 PostSeript 
语言 的 人 不 难 读 民 . 然而 , 对 于 一 般 用 户 ， 只 有 打印 或 显示 出 来 十 能 看 到 
效果 .最 方便 的 显示 程序 是 名 为 GhostScript 的 免费 软件 : 

R-80 GhostScript 是 与 PostScript 等 价 的 解释 语言 。GSView 是 它 的 显 

示 程 序 ， 也 具有 打印 功能 ， 可 从 以 下 网 址 获取 : 


http://www.cs.wisc.edu/"ghost/ 
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ftp://ftp.cs.visc.edu (/ghost/rjl/gsview*.zip) 
Adobe 公司 的 另 一 个 真 献 是 所 谓 PDF X fF: 

R-&1 PDF 即 可 移植 文件 格式 (Portable Document Format). % H $8 A 
.pdf . 产生 PDF 文件 的 工具 , 好 Acrobat PDEWriter 或 把 PostScript 
文件 转变 成 PDF 文件 的 Acrobat Distiller 都 是 商业 软件 , 但 阅读 PDF 
文件 的 开具 Acrobat Reader 可 免费 由 Adobe 公司 的 网 页 下 载 : 
http://www.adobe.com/ 


我 们 昌 前 使 用 的 是 Acrobat Reader 4.0. WA FR PDF 文件 时 ， 恕 
果 浏 览 器 发 现 本 地 计算 机 上 还 没有 安装 Acrobat Reader, CA HBH 
FTR. 
TZ: Fd b zuiB A. 5; PRESS (S BR AW ex fEEX. 如 .png . .gif 
和 .jpeg ， 这 里 只 简单 提 一 下 。 JPEG 来 自 Joint Photographic Experts 
Group. 相片 扫描 进 计算 机 后 ,通常 以 .jpeg 格式 保存 , UOCE fa HE A 
并 导致 一 些 失 真 。 GIF (Graphics Interchange Format) 是 最 简单 的 图 象 格 
A, RA 256 种 颜色 . GIF 软件 涉及 商业 产权 ， 因 此 又 发 展 出 意 在 取代 
GIF 的 自由 的 PNG (Portable Netwrok Graphics) 格式 。 关 于 后 者 ， 可 以 
参看 : 
R-82 http://www.W3.org/TR/REC-png-multi.html 
还 有 一 批 与 超 文 本 文件 BTML 有 关 的 格式 , 读者 通常 不 需要 去 产生 
它们 . 知道 一 些 名 字 ， 可 减少 生殖 感 ， 有些 与 HTML 接口 的 应 下 程序 ， 例 
如 在 网 页 上 填 表 提交 序列 和 参数 ， 用 到 CGI(Common Gateway Interface) 
机 制 。 相 应 的 命令 文件 可 以 用 和 任何 语言 编写 ， 最 常用 的 是 Perl 语言 。 这 
类 文件 通常 带 后 级 .cgi 或 .pl 。 有些 动态 产生 网 页 的 HTML 文件 ， 从 
服务 器 本 身 调 用 某 些 插入 文件 (Server Side Includes ,简称 SSI) ,它们 的 
后 缀 是 .shtml (UNIX) 或 .stm (PC). 


82.5 ”文件 的 压缩 和 解压 


在 传输 或 保存 数据 时 ， 为 了 减少 数据 量 ， 大 的 文件 通常 以 庄 缩 形式 
保存 . 特别 对 于 图 形 文件 ， 压 缩 尤 其 必要 . 在 UNIX AL, 标准 的 压缩 
命令 是 compress myfile ， 压 缩 后 的 文件 自动 加 上 后 级 .z. 解 庄 命令 是 
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uncompress myfile.Z. 


清 注意 ， UNIX 中 的 为 多 个 文件 建立 档案 的 tar c 命令 没有 上庄 缩 功 
WE. H tar 得 到 的 档案 带 后 级 .tar ， 通 常 比 振 来 的 几 个 文件 长 一 点 ， 计 
缩 后 成 为 .tar.Z 文件 、 使 用 前 要 先 uncompress, WA tar x 把 文件 从 
档案 中 取出 来 . 详情 请 看 man tar 和 man compress. 


PC 机 上 的 微软 视窗 系统 没有 标准 的 压缩 和 解压 命令 , 但 有 一 批 广泛 
使 用 的 年 缩 程序 ， 如 pkzip.exe(Fk 88/5 28 79g .ZIP) 和 pkunzip, pkpak.exe 
和 pkanpak.exe(Hs AERA .arc) ， 以 及 arj.exe( 讨 缩 后 级 为 .arj) 等 . 
网 上 有 一 些 针对 PC 视窗 系统 的 自由 或 带 免 费 试用 期 的 共享 压缩 、 解 灶 
软件 ， 如 FreeZip 、 WinZip 等 ， 见 : 

R-83 http://www.ozemail.com.au/^nulífetv/freezip 
R-84 http://www.winzip.com/ 
还 可 查阅 [R-65] 等 网 址 . 

在 UNIX 系统 和 PC 视窗 之 间 双 向 兼容 的 压缩 软件 是 GNUWare 
[R-62] 中 的 gzip 。 压缩 命令 是 gzip filename ， 上 压缩 后 的 文件 名 带 后 
级 .gz 。 命令 中 可 以 使 用 * 来 分 别 压 缩 一 批文 件 。 解压 命令 是 gzip -d 
filename.gz 或 gunzip filename.gz ， 命 令 中 也 可 以 使 用 * 来 解压 一 批 
xí. 

iX BN UE F uuencode 和 uudecode MG., REE UNIX 系统 之 
间 用 二 进 制 传送 文件 时 ， 为 了 如 和 免 连续 空格 和 特殊 代码 被 错误 处 理 ， 事 
先 要 把 文件 用 uuencode 命令 编码 为 “可 读 ” 的 ASCI 文本 ， 收 到 以 后 再 
用 uudecode 命令 解码 复原 ， 直 到 现在 ， 在 EBI [R-131] 的 ftp 服务 器 的 
/pub/software/ Y H3&'rP ( 见 [R-612) ， 仍 有 一 些 用 uuencode 加 工 过 的 
软件 ， 特 别 是 ， 一 个 大 文件 往往 被 分 成 几 个 文件 ， 后 织 为 .uua 、 .uub 
等 ， 要 由 用 户 自己 解码 和 拼接 ， 


82.0 电子 邮 # 


量 然 现在 多 数 生物 信息 服务 都 可 以 通过 WWW 网 页 享用 ,电子 邮件 
仍然 是 重要 的 提交 询问 、 获 取信 息 和 搜索 数据 库 的 手段 .特别 当 所 提 作 
业 要 求 较 长 计算 时 间或 返回 信息 量 较 大 时 ， 电 子 邮 件 更 是 不 可 替代 的 办 


82.6 电子 d ff 


3X 2.4. 一 些 生 物 信 息 电子 邮件 服务 的 地 址 


电子 邮件 地 址 


简短 人 说明 


blastOncbi.nlm.nih.gov | 
fastaQebi.ac.uk 
blitzOebi.ac.uk 
blocksQhoward.fhcrc.org 
QVornl . gov 
queryOncbi.nlm.nih.gov 
retrieveOncbi.nlm.nih.gov 
grailQOornl.gov 
nnpredictQceleste.ucsf.edu 
phd6dodo.cpmc.columbia.edu 
repeatmaskert 
ftp.genome.vwashington.edu 
signalpácbs.dtu.dk 


JR He cine [R-631] 

搜索 序列 数据 库 [R-641] 

搜索 各 门 质 数据 库 [R-651] 
蛋白 质 分 类 和 问 源 性 {R-476] 
GenQuest Z ARR [R-652] 

NCBI 的 Entrez 集成 检索 服务 [R 200} 
从 单个 NCBI ARERR FI. [R-201| 
AAF SUP AN EE P. |R-719|] 

预测 二 级 结构 的 神经 网 络 [R-766] 

Td S ea fh 5 k ty (R- 760) 

TE AUT Pipes d Sm WEE (R-748] 


须 测 蛋 自序 列 中 的 信号 地 肢 [R-767] — 
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法 . 表 2.4 中 并 列 了 一 批 提供 生物 信息 服务 的 电子 邮件 地 址 .并 附 简短 说 

Hj. 较为 详细 的 用 法 ,请 根据 说 明 中 的 引用 号 ， INA XEUE. 多 个 生物 

信息 中 心 可 能 提供 同一 项 服务 ， 表 中 只 给 出 一 处 地 址 也 请 看 后 文 - 通常 

只 要 按 表 中 地 址 发 一 封 电子 邮件 ， 正 文中 只 写 一 个 字 : HELP ， 就 可 以 

获得 详细 的 使 用 说 明 . 

R-85 从 瑞士 生物 信息 研究 所 [R-141] 的 ftp 服务 器 可 以 获取 更 加 详尽 的 
电子 邮件 服务 器 地 址 清单 , 但 其 数据 较 旧 ,有 些 地 址 已 不 复 存在 .网 
hE: 
ftp://www.expasy.ch (/databases/info/serv ema.txt) 

R-86 另 一 个 重要 资料 来 源 是 印第安 那 大 学 的 生物 信息 档案 [R-611] : 
http://iubio.bío.indiana.edu/ 

使 用 电子 邮件 服务 时 ， 请 特别 注意 以 下 两 点 : 

第 一 ， 必 须 严 格 按照 规定 格式 提交 人 作业， 因为 这 些 无 人 干预 的 自动 
服务 ， 不 会 正确 处 理 违 规 来 陋 . 

第 二 ， 网 上 服务 不 是 一 种 当然 权利 ， 而 是 享用 转 际 同行 好 心 提 供 的 
机 会 ， 而 且 总 有 某 个 单位 为 所 用 资源 付出 费用 . 因此 ， 首 先 不 可 滥用 ， 务 
必 节 省 对 方 机 器 时 间 ; 其 次 ,在 论文 中 要 明确 引用 服务 的 来 源 ; 再 次 ， 当 
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有 可 能 时 ， 在 自己 的 网 页 上 提供 有 益 的 服务 ， 以 回报 国际 科学 界 ， 
上 面 第 -二 条 ， 也 适用 于 其 他 一 切 形式 的 网 上 服务 . 


$2.7 ”远程 计算 机 


志 联 网 提供 了 使 用 远程 计算 机 资源 的 可 能 性 ， 人 允许 与 许多 远程 计算 
机 交换 文件 . 所谓 远程 计算 机 可 能 在 问 一 间 办 公 室 内 ,也 可 能 远 隔 重 洋 ， 


2.7.1 telnet — 登录 到 远程 计算 机 


经 互联 网 登录 到 另 一 台 计 算 机 上 去 运行 作业 ， 襄 求 事先 在 那 台 机 器 
上 取得 用 户 名 和 口令 .登录 命令 是 : 
telnet 远程 计算 机 的 IP 地 址 或 域名 
实现 联接 之 后 ， 按 对 方 要 求 完成 登录 手续 . 


2.7.2 ftp -一 远程 文件 传送 


所 有 大 型 信息 中 心 和 许多 单位 均 设 有 遵从 文件 传输 协议 (ile transfer 
protocol) 的 服务 器 即 ftp server, 人们 只 要 知道 IP 地 址 ， 就 可 以 使 用 ftp 
命令 以 无 记名 (anonymous) 方式 访问 公用 目录 区 , 读 取 文件 或 下 载 软件 . 
虽然 可 以 在 浏览 器 里 实现 ftp 传输 ， 单 独 使 用 ftp 命令 有 了 时 仍 有 好 处 ， 有 
些 服务 器 可 以 对 文件 或 子 目 录 作 实时 压缩 ， 只 须 在 命令 中 把 文件 名 加 上 
-Z 、 .gz 等 后 统 (如 服务 器 上 文件 并 未 压缩 ) ; 整个 过 程 在 用 户 监控 之 
下 ， 效 率 可 能 略 高 ， 而 且 线 路 中 断 时 可 设法 补救 . 

表 2.5 中 开 列 了 一 些 内 容 较为 丰富 的 ftp 服务 器 的 URL .更 详尽 的 
ftp 服务 器 清单 ， 可 从 瑞士 生物 信息 研究 所 [R-141] 的 ftp 服务 器 下 载 ， 

R-87 瑞士 生物 信息 研究 所 生物 信息 ftp 服务 器 清单 ， 
ftp://www.expasy.ch (/databases/info/serv.ftp.txt) 
这 个 清单 中 许多 地 址 已 不 复 存 在 . 请 参考 印第安 那 大 学 的 生物 信息 档案 
[R-611] . 此 外 ,现在 的 网 络 浏览 器 中 ， 几 乎 对 每 一 个 http 地 址 都 可 以 试 
用 ftp 命令 。 只 要 存在 相应 的 ftp 服务 器 ， 就 可 以 联接 上 并 读 取 文 件 . 

看 一 个 实例 . 用 美国 NCBI 的 ftp 服务 器 由 GenBank 读 取 大 肠 杆 菌 

全 基因 组 的 步骤 如 下 ， 
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$*2.5 一 些 重 要 的 生物 信息 fip 服务 器 的 URL 


fp 服务 器 的 URL — EET) 
ftp.ebi.ac.uk/pub/software 殉 洲 生物 信息 研究 所 [R--13]] 
ncbi.nlm.nih.gov ZARAZE Bye IR-154] 
ftp.nig.ac.jp/pub/ 日 本 国立 遗传 所 [R-137] 
Sanger.ac.uk/pub/ 美国 Sanger 中 心 [R-299] 
ftp.infobiogen.fr/pub/ 法 国生 物 信息 中 心 (R- 148] 
ftp.expasy.ch/pub/ EOESCHEA DS XR AX [R-t] 
ftp.embl-heidelberg.de/pub/ 了 欧洲 分 也 生物 实验 室 [Ro 133] 
iubio.bic.indiana edu 印第安 那 大 学 [R.- 161] 
ftp.cbi.pku.edu.cn 北京 大 学 牛 物 信息 中 心 [R- 166] 


ftp ncbi.nlm.nib.gov 

login: anonymous {或 ftp) 

password: nameQcomputer.domain (以 自己 的 电子 邮件 地 址 作 i11 仿 ) 
Guest logged in. Restrictions apply. 

bin 

cd genbank/genomes/bacteria/Ecoli 

get ecoli.tar.Z 

quit (FR wH JAR Hh) 

在 上 面 的 对 话 记 录 中 , 普通 字体 是 出 户 在 本 地 计算 机 上 答 入 的 命令 、 
黑体 字 是 远程 计算 机 的 反应 。 此 处 省 去 了 从 远程 服务 器 返回 来 的 一 些 文 
字 信 息 . 在 ftp 过 程 中 可 以 使 用 一 批 类 似 UNIX 的 命令 ， 如 表 2.6 所 示 . 
本 书 中 为 了 节省 篇 幅 ， ftp 联接 成 功 后 需 用 cd 转 入 的 子 目录 路 径 放 在 括 
号 中 , 用 空格 隔 开 ， 置 于 ftp 地 址 之 后 . 前面 fR-73j 中 已 经 使 用 过 这 种 记 
法 . 

有 些 命令 普通 用 户 无 权 在 远程 最 务 器 1 使用， 例如 删除 义 件 (rm). 
建立 子 目 录 (mkdir) RAE FAF {rmdir) ， 未 在 表 中 列 出 ,下 距离 传 箱 
文件 时 ， 一定 要 置 二 进 制 (bin} ， 才 不 会 因为 不 同 平台 文件 系统 的 差异 而 
HR. 用 mget 命令 时 ， 文 件 名 中 可 含 * 而 指定 多 个 特定 名 称 的 文件 . 
例如 ， 取 一 批 以 .ps 作 后 缀 的 PostScript 文件 、 发 命令 mget *.ps . wi 
程 服务 器 在 给 出 每 个 具体 文件 名 时 ， 都 要 询问 是 否 读 取 . 几 广 同 答 no Bp 
跳 过 ， 回 答 yes 4HE. 使 用 prompt 命令 ， 可 以 取消 此 种 对 话 操作 ， 连 
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22.6 常用 的 人 tp 命令 


aa WR 
bin 用 二 进 制 传输 
asc Hj ASCII 码 传 输 
prompt — HüixpiE EIE 
cd dr PRHROS EE Led Hog 
lcd 在 本 地 计算 机 土改 变 子 目录 
pud ALmWGRFRHE $25 4 E HORS 
ls 并 示 远程 子 上 里 录 中 交 件 名 
get 点 名 取 -- 个 文件 


tget 取 … 批 交 件 
help 取得 简短 帮助 信息 
quit 2 退出 ftp 


续 读 取 。 公 共 文 件 通 常 在 服务 器 的 /pub/ 子 目录 中 (上面 从 GenBank 取 
大 网 杆菌 基因 组 恰巧 是 个 例外 ) 。 有 的 服务 器 设 有 /incoming/ FHAR, 
供用 户 投稿 或 提交 数据 ， 这 时 可 用 put 或 mput d$. 

从 远程 服务 器 用 ftp 读 取 大 文件 往往 需 很 长 时 间 ， 线 路 不 佳 时 还 会 
中 断 . 除了 选择 周末 深夜 ， 网 络 较为 空闲 的 时 间 , 还 可 以 安装 一 个 免费 的 
下 载 管理 软件 .例如 ， 可 从 
http://www.gozilla.com/ 或 
http://www.tucows.com/ 
取 来 名 为 gotzilla 的 程序 、 它 可 以 自动 重新 联接 到 最 务 器 ， 从 上 次 中 断 处 
继续 该 到 文件 ， 还 可 在 读 完 文件 后 自动 挂 新 电话 线 甚 至 关闭 计算 机 。 


82.8 ”多 种 平台 共存 的 工作 环境 


一 个 工作 单位 内 多 种 平台 共存 、 目 前 已 是 普遍 情形 ， 如 何 保 证 硬件 
联接 和 相 容 ， 是 系统 管理 员 的 责任 ， 这 里 不 讲 . 下 面具 提 几 件 经 常 遇 到 的 
事情 . 

第 一 , 不 同 平台 间 文 件 传输 : 从 PC 机 或 UNIX 机 向 另 一 台 UNIX T. 
作 站 进行 文件 传输 和 远程 登录 ， 要 求 在 工作 站 上 开 有 帐号 和 知道 口令 (用 
无 记名 ftp 访问 工作 站 的 公开 目录 不 受 此 限 ， 已 在 前 面 讲 过 ) . 从 UNIX 
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或 PC 机 向 另 一 台 PC 机 进行 文件 传输 和 远程 登录 ， 刘 览 求 后 者 被 置 成 服 
务 器 模式 (通常 要 运行 Windows NT 或 Windows 2000 RE). Sx b, 
互联 网 上 有 许多 PC 机 服务 器 . 不 过 ,一 般 个 人 用 户 并 无 必要 把 自己 置 成 
服务 器 ， 让 别人 访问 . 

第 二 ， DOS 和 UNIX 文件 格式 转换 ， 由 于 DOS 和 UNIX 系统 处 理 
文本 文件 的 “ 回 车 ?>、“ 换 行 ” 方式 不 同 ， 从 DOS 用 二 进 制 (bin)ftp 文件 
到 UNIX ZI, ÍfSfpRE ZU ^M 符号 .许多 软件 知道 如 何 对 待 这 些 
符号 , 但 有 些 程序 则 会 出 问题 、 解 决 办 法 有 三 : 改 用 ASCI 模式 (asc) f£ 
输 ， 使 用 dos2unix 或 unix2dos 程序 进行 转换 ; 最 后 ， 靠 编辑 程序 修 I. 
我 们 借 第 三 种 办 法 ， 简 单 介 绍 UNIX 的 屏幕 编辑 程序 . 

任何 UNIX 系统 都 有 标准 的 屏幕 编辑 命令 vi ， 它 是 出 显示 器 尚 不 
普及 时 的 打字 机 编辑 程序 ed 演变 而 来 的 . 读者 可 发 man vi 或 man ed fiy 
令 ， 了 解 它 们 的 详细 用 法 . 为 了 在 UNIX 下 出 去 每 行 末尾 的 ^47 ， 只 须 
调用 vi filename ， 进 入 编辑 程序 后 输入 彤 号 “:”"， HE" KRAER 
幕 下 方 后 继续 输入 命令 : 

:11,$8s/VM// 

注意 : 这 里 VM 不 是 两 个 大 写字 母 ， 而 是 在 同时 按 下 “上 挡 ”(shift) n "je 
制 ” {ctrl) 两 键 时 再 按 VAM, HAREM. 土 面 这 个 编辑 命令 说 : 
AR 工行 到 最 末 行 ($) 把 /^ M/ 置换 (s=substitute) 成 // 之 间 的 空 无 一 
物 ， 即 取消 . 

第 三 ， 用 本 地 机 器 为 远程 UNIX 平台 作 X 终端 ， 人们 常常 在 自己 的 
UNIX 工作 站 上 开 窗 口 ,远程 登录 到 另 一 台 速 度 较 快 的 UNIX 工作 站 去 运 
行 作业 , 包括 运行 图 形 最 示 程 序 ， 却 想 在 自己 的 工作 站 上 观看 图 形 。 设 本 
地 计算 机 的 域名 地 址 为 stationi.myuniv.edu.cn, ， 而 远程 计算 机 的 域名 
地 址 为 station2.myuniv.edu.cn .这 时 应 在 station2 上 置 环境 变量 : 
setenv DISPLAY stationi.myuniv.edu.cn:0.0 
要 求 把 stationi 的 主 显示 器 ， 即 0.0 显示 器 设置 为 当前 显示 器 .同时 ， 
要 在 stationi 上 发 命令 : 
xhost station2.myuniv.edu.cn 
说 明 station2 是 运行 X 系统 的 主机 . 偶尔 会 遇 到 的 河 题 ， 是 station? 
抱 想 “颜色 不 够 分 配 ” 而 拒绝 显示 .这 有 时 是 因为 在 stationl 上 开 了 太 
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多 使 用 颜色 的 窗口 ， 例 如 Netscape 。 把 它们 关闭 之 后 ， 应 能 正常 显示 。 
从 PC 机 远程 登录 到 UNIX 工作站， 进行 与 上 面 类 似 的 作业 ， 实 际 
就 是 把 PC 机 作为 工作 站 的 X 终端. 这 时 要 存 PC 上 运行 专门 的 X 窗口 
模拟 软件 ， 例 如 : 
R-88 X-WinPro, ， 这 是 Labtam Finland 公司 发 展 的 、 可 以 多 次 免费 试用 
的 共享 软件 . 下 载 网 址 : 
http://www.labf.com/ 


第 3 章 生物 学 引 论 


这 一 章 将 极为 扼要 地 介绍 现代 生物 学 、 主 要 是 分 子 生物 学 的 基本 知 
识 , 为 后 面 讲 述 数 据 库 和 算法 准备 一 些 背 景 概念 . 生物 学 者 们 可 以 跳 过 这 
一 章 ， 从 第 4 章 继续 阅读 . 


83.1 地球 上 的 自然 史 


地 球 上 的 生物 是 自然 界 在 特定 条 件 下 演化 的 结果 ， 而 且 仍 继续 处 于 
变化 之 中 . 对 于 从 物理 科学 和 数学 转 而 关心 生物 的 学 者 ,这 更 是 要 始终 牢 
记 的 事实 。 简 单 回 顾 一 下 地 球 上 的 自然 史 是 颇 有 教 益 的 . 

人 类 目前 观察 所 及 的 字 宙 大 约 产 生 于 120 亿 年 前 发 生 的 一 次 “大 爆 
炸 ”“. KHA 49 4L 5E Dg TRR. ie T ab, FARFA, 我 们 只 
知道 这 个 小 小 地 球 在 有 限 的 具足 时 期 里 产生 了 奇妙 的 生命 现象 、36 ~ 38 
亿 年 以 前 广电 球 海洋 里 出 现 了 似 营 类 的 原始 生物 . SEOC E EHE HE PE IE RS 
的 茧 茂 类 的 繁殖 ， 使 大 气 中 氧 的 含量 这 渐 增 加 . 臭氧 屋 虽 开始 形成 ， 但 是 
还 不 足以 保护 生命 免 王 宇 容 线 的 输 射 杀伤 . 因此 ， 最 初 的 生命 活动 只 能 存 
在 于 海洋 里 . 大 约 到 ? 亿 年 前 ， 已 经 演化 出 务 种 多 细胞 生物 ， 包括 许多 无 
FDH. 

大 约 5.3 亿 年 前 ， 有 过 一 次 “ 寒 武 纪 大 爆发 ":， 硅 约 1500 万 年 的 短 短 
HIE, 海洋 里 突然 出 现 了 极其 众多 的 物种 . 最 早 的 实例 是 存 加 拿 大 发 现 
的 Burgess 动物 群 . 1984 年 以 后 ， 在 我 国 云 南河 江 县 境内 发 现 了 时 间 略 
早 而 蕴藏 更 丰富 的 泪 江 动物 群 ? . 近年 原 贵 州 省 人 泡 安 等 地 更 发 现 了 软 纠 
织 依 稀 可 见 的 化 石 。 . 


$ 可 参看 Science 279(1998) 981 , 
7 可 参看 陈 铭 远 等 黄 . 《港汇 动物 群 . ÆRA KERMES. ARR, 1996 , 
5 $, Xiao 等 ， Naiure391{1998) 553; C. W., Li '$, Science 279(1993) 579. 
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KA 4.3 亿 年 前 发 生 了 “ 志 留 纪 大 爆发 "<。 那 时 大 气 中 的 氢 蕊 达到 钢 
代 含 量 的 1076 , 地 球 上 形成 的 臭氧 层 开 始 发 挥 对 生命 的 保护 作用 . 因此 ， 
这 次 物种 大 爆发 的 特点 ,就 是 生命 活动 从 海洋 扩展 到 陆地 . 物种 的 大 爆发 
和 消亡 , 在 漫长 的 地 质 史 中 至 少 有 五 次 记录 - 但 寒 武 纪 以 来 的 主要 趋势 是 
物种 减少 。 

ZEJEBRUA BECK VLA E 6500 万 年 前 的 事 ， 虽 然 4500 万 年 前 的 恐龙 
化 石 也 曾 有 所 发 现 , 鸟 类 的 起 源 大 概 与 恐龙 消灭 同时 ,因而 有 一 种 观点 是 
鸟 类 源 于 翼 龙 . 古 峭 椎 动物 中 猩猩 科 (Pongidae) 53 A FE (Hominidae) 的 
分 离 不 过 是 350 万 年 前 的 事 . 50 万 年 前 生活 在 今日 周口 丫 地 区 的 “ 北 
WA” ATAZA (Homo erectus), 75 000~35 000 年 前 广泛 生 话 在 西 
欧 和 中 亚 一 带 的 尼 安 德 特 人 (Homo neanderthalensis) 曾 被 定 为 一 个 单独 
的 属 ?， 现 在 认为 是 早期 智 人 .我 们 自己 的 生物 学 学 名 是 知人 (Homo 
sapiens} 。 两 万 年 前 在 周口 店 地 区 生活 过 的 山顶 洞 人 与 我 们 同 是 知人 。 地 
球 上 现在 生活 着 的 不 同 肤色 的 人 类 ， 都 是 同 种 智 人 。 

相对 于 在 地 球 上 生活 了 30 多 亿 年 的 细菌 , 哺乳 动物 是 十 分 年 轻 的 物 
种 .个体 生 命 周 期 的 差异 ， 使 这 种 对 比 更 为 悬 珠 . 


83.2 生物 的 分 类 


生物 分 类 体系 是 瑞典 博物 学 家 林 奈 (Carolus Linnaeus, 1707 - 1788) 
建立 的 .他 把 一 切 生 物 分 成 界 (kingdom) 、 门 (phyla, 单数 phylum). $84 
(class) . H (order) 、 科 (family) 、 属 (genera, 单数 genus) 、 种 (species) -E 
级 ,每 级 还 可 再 冠 以 前 缀 超 (super) 或 亚 (sub) ， 分 出 新 的 层次 . 一 个 具体 
物种 的 学 名 由 属 名 和 种 名 两 个 拉丁 字 组 成 ， 后 面 还 可 以 标注 首次 发 现 的 
地 名 和 发 现 者 的 名 字 . 例如， 动物 界 (Animalia) TE3X 3i $901 (Chordata) 
W 3,44 (Mammalia) 食肉 Ei (Carnivora) WP} (Felidae) $598 (Panthera) 的 
ZRH, FA Æ Panthera pardus 。 只 有 种 名 小 写 ， 其 他 都 用 大 写 开 头 . 

使 用 已 经 作 古 的 拉丁 文 ， 是 为 了 物种 的 统一 命名 不 因 民 族 语 言 而 分 
HR. 林 奈 甚至 把 自己 的 姓名 也 用 拉丁 文 拼写 .由 Linnaeus carolus 拟定 的 


9 可 参看 Science 241 (1979) 118 - 133 . 
10 RER, "uHiGiBA Exo WA". COME» (HT), 52(2000) is - 20. 
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所 有 的 生物 首先 分 成 原核 生物 (prokaryote) 和 真 较 生物 (eukaryote) . 
原核 生物 多 为 单 细胞 或 府 居 成 丝 状 . 它们 的 DNA 没有 用 膜 包 只 起 来 形成 
细胞 核 ， 而 是 聚 在 称 为 拟 核 的 区 域 里 .它们 没有 徽 管 蛋白 、 山 动 蛋白 和 
组 蛋白 ,细胞 里 面 也 没有 线粒体 或 叶绿体 这 类 细胞 器 .这 些 特 和 使 它们 
明确 有 别 于 真 核 生物 . 从 单 细胞 的 酵母 到 人 都 属于 真 核 生 物 .。 真 核 生 物 
的 DNA 借助 组 蛋白 形成 多 个 染色 笨 ， 染 色 体 再 由 双 层 磷脂 膜 包 在 细胞 核 
里 面 . 细胞 核 的 膜 上 开 有 用 和 蛋白质 贸 峙 好 的 孔洞 . 从 DNA 转录 出 来 的 信 
使 RNA ， 经 过 加 :之 后 由 核 孔 送 到 细胞 质 去 . 真 核 生 物 又 区 分 成 原生 生 
物 、 和 真菌、 植物、 动物 等 “ 界 "。 

目前 在 地 球 上 栖息 的 生物 ， 尽 管 形态 和 生活 方式 千 益 万 别 ， 但 遗传 
密码 的 统一 性 和 基本 生物 化 学 过 程 的 一 致 性 ， 使 人 们 根 信 它们 都 是 扯 一 
个 共和 辣 的 祖先 演化 而 来 . 根据 生物 形态 学 作出 的 分 类 ,同时 也 给 出 了 追 测 
演化 过 程 的 参考 . 辅 以 古生物 化 石 的 研究 ， 可 以 粗 线条 地 构建 物种 的 亲缘 
关系 或 亲缘 树 。 分 子 生 物 学 的 进展 ， 特 别 是 大 量 核酸 和 蛋白 质数 据 的 积 
累 ， 使 得 人 们 能 够 从 分 子 水 平 追溯 亲缘 关系 ,构建 亲缘 树 或 演化 树 . 这 也 
是 生物 信息 学 的 一 项 重要 内 容 。 

生物 R” 的 划分 ,在 20 世纪 70 年 代 末 发 生 的 一 次 重大 变化 ， 就 来 
自分 子 水 平 的 对 比 研究 。 Carl Woese 等 人 人 发现， 原核 生物 事实 上 分 成 两 
大 集 闭 , 即 古 细菌 (archaea) 和 真 细菌 (eubacteria). 古 细菌 其 实 更 “新 ” 
一 些 ， 真 核 生 物 是 从 中 分 出 来 的 。 Woese 等 建议 把 原核 生物 再 分 成 两 个 
界 . 并 不 是 所 有 的 学 者 都 赞成 他 们 的 意见 . 因此 , 现在 生物 分 界 , 有 三 界 、 
五 界 、 六 界 、 八 界 之 争 ! .下面 这 本 普及 书 ， 是 了 解 演化 和 分 类 的 好 参 
考 ， 尽 管 作者 们 也 不 同意 Woese 的 主张 。 

R-89 Lynn Margulis, and Karlene V. Schwartz, Five Kindoms. An Ius- 
trated Guide to the Phyla of Life on Earth, W. H. Freeman and Co., 

1982, 1988, 1998. 


u 参看 N. A. Campbell, Biology. 4th ed., Benjamin/Cummings, 1996 , 3& 495 fi, 
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83.3 模式 EH 


对 地 球 上 现存 物种 的 总 数 有 不 同 估计 .一 般 认 为 有 500 万 到 3000 万 


种 。 科 学 家 们 当然 不 可 能 对 如 此 多 样 的 物种 逐一 研究 。 通 过 集中 研究 一 
些 典 型 的 模式 生物 ， 人 们 获取 了 丰富 的 知识 。 从 简单 到 复 攻 ， 研究 待 最 
多 的 模式 生物 有 : 


R-90 


R-91 


R-94 


WEB BE (bacteriophage) . 这 是 细菌 的 病毒 ， 例 如 Px174. A, TA, 
T7 只 菌 体 等 等 . 叭 菌 体 并 不 总 是 坑害 细菌 , 它们 有 时 候 也 把 自己 接 到 
细菌 的 DNA 里 ， 请 细菌 帮助 繁殖 . 这 时 称 为 前 败 菌 体 (prophase) . 
病毒 ， 如 猿 狼 病 毒 SV40 ， 人 艾滋 病毒 HIV Sp. a SERIES PU OE HE d 
度 发 展 了 的 寄生 生物 . 它们 除了 作为 遗传 物质 的 DNA 或 RNA 外 ， 
只 保留 了 极 少 蛋白 质 来 帮助 保护 自己 和 入侵 宿主 ,它们 的 DNA 与 
宿主 有 较 多 关系 、 有 些 就 是 演化 过 程 中 从 宿主 那里 偷 来 的 . 因此 ,在 
分 类 上 把 它们 单 作 一 群 ， 不 好 嫁接 到 演化 树 的 枝 权 上 . 

AKIE (Escherichia coli) . 这 是 研究 得 最 为 详尽 的 一 个 模式 生物 ， 
分 子 生 物 学 的 许多 重要 发 现 都 是 用 大 肠 杆 菌 向 出 来 的 . 这 种 只 有 1.6 
微米 长 的 、 可 以 迅速 繁殖 的 单 细 苞 生物， 已 经 成 为 实验 室 舱 基因 工 
程 的 重要 工具 。 有 关 大 肠 杆菌 的 数据 库 很 多 ， 如 x12 菌株 的 基因 组 
数据 库 {[R-346] 、 ECDC 1R-347] 、 EcoGene [R-348) 、 RegulonDB 
fR--349] 、 EcoCyc [R-552] 、 MetaCyc [R-552] 等 等 。 

酿酒 酵母 (Saccharomyces cerevisiae) .英文 俗名 风 baker's yeast 或 
budding yeast 或 简称 yeast ， 我 们 在 本 书 中 就 叫 它 酵母 。 这 个 属于 
真菌 界 的 单 细 胞 真 核 生 物 ， 有 16 个 染色 体 ， 在 某 些 方面 与 人 已 经 有 
不 少 共同 之 处 . 它 的 完全 基因 组 已 在 0996 年 测定 . 与 酵母 有 关 的 数 
据 库 有 SGD [R-358] LISTA [R-359] 、 MIPS [R-139] 、 YIDB 
[R-361] 、 YPD [R-499] $. 

759 Wi £X rh. (Caenorhabitidis elegans). R X XIU nematode, XMH £ 
时 直 称 worm , 这 种 透明 和 的 、 生 活 在 海滩 泥 沙 中 的 小 虫 是 细胞 数目 
一 定 的 动物 . 它 在 发 育 过 程 中 细胞 数 自 超过 1 000 ,但 成 虫 只 有 959 
个 细胞 ， 其 中 包括 302 个 神经 元 . 发 育 过 程 中 自动 调控 的 细胞 漳 T: 
(apoptosis) ， 是 近来 热门 研究 课题 之 一 .线虫 的 6 个 染色 体 中 9 700 
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万 核 背 上 筑 的 排列 顺 译 ， 己 经 存 1998 年 底 基 本 上 测定 . Eja € Rb» 
周刊 特别 为 此 发 了 专集 妆 ， 

R-95 $4 (Drosophila melanogaster). 这 种 繁殖 很 快 、 容 易 诱 发 变异 的 小 
Hu, 已 经 为 遗传 学 带 来 了 许 才 知识 。 果 蜡 的 总 长 达 1.8 {LE PR H 
基因 组 的 主要 部 分 已 在 2000 年 初 发 表 ， 见 [R-369] . 与 果 蝇 有 关 的 
数据 库 有 FlyBase [R-371] 、 FlyNets [R .372] 、 GIF-DB [R-373] . 
Flyview [R-501] 、 Fiybrain [R-502] 等 . 

R-96 jU Hif (Arabidopsis thaliana) ,这 种 个 体 生活 周期 只 有 6 周 的 十 字 花 
科 小 草 ,， 是 一 种 理想 的 模式 植物 . 与 拟 南 芥 有 关 的 数据 库 见 MATDB 
[R-391], AtDD [R-392]. DAtA [R-394], AGR [R-396] 和 TIGR-AT 
(R-397] 等 。 

R-97 水 稻 (Oryza sativa) . 作为 亚洲 人 民主 归 食 物 的 水 稻 , 其 基因 组 计划 是 
中 网 和 日 本 的 研究 重点 . 水 称 基 因 组 是 小 麦 的 1/37 。 1997 年 包括 中 
园 在 内 的 10 个 国家 或 地 区 开始 实行 国际 水 稻 基因 组 计划 IRGSP . 
2000 年 4 月初 ， 孟 山 都 公司 宣布 完成 了 水 稻 全 部 12 个 染色 体 DNA 
的 “工作 草图 ”、 并 将 把 它 提交 给 IRGSP 继续 研究 . 日 本 的 水 稻 基 因 
组 数据 库 INE 见 [R-568] 。 中 国 的 水 稳 某 因 组 计划 的 进展 见 中 国 科 
学 院 国家 基因 组 研究 中 心 的 网 页 [R-175] . 

R-98 FEHMA (Xenopus lavias), C B — EE SZ NE BRE 24 小 时 内 就 分 裂 到 
各 种 器 官 初 具 雏 形 的 程度 ， 因 而 很 便于 研究 .参看 Axeldb[R- 506] . 

R-99 M5 f (Danio rerio) 3€ X: 俗名 Zebra fish .这 是 一 种 通体 透明 的 小 
鱼 ， 生 活 周期 约 三 个 月 ， 是 研究 峭 容 动物 发 育 过 程 的 良好 对 象 . 美国 
国家 卫生 署 1997 年 即 建 立 了 斑马 鱼网 页 [R-376] . BE fe SE EQ ZH c 
据 库 见 ZFIN [R-377]. 

R-100 XB (Mus musculus) , 它 的 基因 组 大 小 同人 类 相近 ,有 约 30 亿 个 核 
HE, 组织 在 19 对 染色 体 里 。 家 鼠 的 完全 基因 组 原来 预计 在 2008 
FERME, 很 有 可 能 提前 . 与 家 鼠 有 关 的 数据 库 见 [R-379] 、MGD 
[R-380]. MTB[R-536] 等 . 

R-101 当然 ， 人 (Homo sapiens) 自己 是 重点 研究 的 典型 物种 .事实 上 ， 在 
GenBank [R-212] 等 数据 库 中 绝 大 多 数 序列 来 自 人 人 。 


12 Science 282, 1998 Æ 12 H 11 A. 
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83.4 ”构成 生 物 的 四 类 分 子 


从 化 学 成 分 看 ， 生 物体 内 除了 水 、 无 机 盐 类 和 离子 ， 主 要 有 四 类 分 
子 ， 其 中 三 类 可 以 形成 大 分 子 。 见 表 3.1 。 


表 3.1 构成 生物 的 四 类 分 子 


小 分 六 ”大分 子 

d. XO ER. IP. NOR, ER 

IR Mi Me 

TET. 核糖 核酸 (RNA) RR TUER (DNA) 
REA ai CUR 


3.4.1 单 糖 、 双 糖 和 多 糖 


糖 类 是 碳水 化 合 物 . SOWIE AE SUE. SOBERUCESLBESS, x Blerpixe dr 
糖 由 两 休 葡 萄 糖 组 成 ， 功 糖 由 葡萄 糖 和 果 糖 给 成 ,乳糖 由 区 萄 糖 和 和 半 和 乳糖 
组 成 . 单 糖 可 以 聚合 成 线性 或 分 支 的 多 辖 大 分 子 . 网 核 酸 或 蛋 向 质 比 ， 多 
糖分 子 并 不 很 大 ， 人 也 不 包含 许多 信息 ， 但 在 分 子 识别 和 免疫 方面 和 一- 定 
作用 . 它们 主要 用 于 储存 能 其 或 作 结构 材料 ， 植 物 用 于 储存 的 真 链 诺 粉 
(amylose) 是 线性 分 子 ， 而 支 链 淀粉 (amylopectin) 是 分 支 大 分 子 ， 动物 储 
FERH UBER (glycogen) 是 分 支 更 多 的 大 分 子 ， 是 具有 odi RIS 
糖 的 聚合 物 . 作为 结构 材料 的 纤维 素 (cellulose), ARA 8 39 X1 0 Sj So Bi 
B)5XY9. fü V5 u e Fr inf) SE EX EHÉET HE CEU ER, EL IB. 7e EB. (chitin) 
W] E Fc 5p p SEOS 3: 3E RAT. 


3.4.0 MIRRE 


脂肪 酸 不 能 形成 很 大 的 聚合 分 子 . 它 是 脂肪 (fats), WM (oils) 和 磷脂 
(phospholipids) 的 结构 成 分 . 一 端 亲 水 、 一 端 琉 水 的 磷脂 分 子 是 纠 成 生物 
膜 的 主要 材料 . ASDIBNE (steroids) 是 不 含 脆 肪 酸 的 脂 类 ， 它 们 作为 激素 和 
维生素 在 体内 起 着 重 杰作 用 。 


H3 Him m ego er 4 


3.4.3 Hot REOR 


HRA oy FEHI R TRAR HE SE EL 1 E (ei n Am 3 
Aat qp ir o Fe] REA CER P PR HENDRER: -Ae DLOSBU, H 
五 个 碳 原子 从 1 $8 5$ 5, -一 个 接 在 5' 磋 十 的 磷酸 根 ; Tp YEÓO Y x 1. 
RRE, GERA TUIS. IEA HAPE AR To BIER TEENS. RP 
基 是 含 握 的 六 元 条 环 , Buen wk. MAREELE RENE. E R A AS (C), 
BIFA (T) PUER EFE (U). 丙种 碱 基 是 五 抑 环 配 六 元 环 的 杀 球 、 即 腺 叶 叭 
FGE, ERIRE A (A) Fu HERE (G). BEXE AR Spo f e RUSR TE 
编导 ,数码 上 不 如 。 ERRE 2/ 和 3 位 上 都 是 羟基 OQH . EZ 
(ribose), 如果 2 fY CART FUR TF H, 那 就 成 为 脱氧 核糖 (deoxyribose , 
43d). 4 3' 位 上 也 脱氧 , 就 成 为 双 脱 气 核 糖 (dideoxyribose , 4815 dd). 
5' 位 上 的 磷酸 根 有 单 、-;、 三 磷酸 之 分 ， SXSDERRM.D. TËR. 
这 些 可 能 性 纠 合 起 米 ， 就 成 为 生物 化 学 文献 中 常见 的 种 种 缩写 。 辣 如 ， 
ATP 、4GDP 和 ddCTP 分 曾 表 示 三 磷酸 腺 上 ( 腺 三 磷 ) HBLVC N S 
TORXXHRARLIIBtARHUdP. GIU NTP, dNTP 和 ddNTP, HNE 
A. C, G, Ta Upa- i. 

EERTE HK T, A TR S! pr L9 e AERIS — Tr EE 
3k 5' Br LI SERE TRICK RELEERE CNSGE. ELEC. AREA STAEG N ag 
一 维 链 ， 通 常 从 5' 端 看 到 了 Xe. HO SLUECBEPINE DNA HA, C. G, 
TRAMER, HERNA HA, C. G, URA MR. ERIN E 
E, RNA 可 能 早 于 DNA 出 现 ， 这 是 “ RNA 世界 ”的 观点 : 

R-102 W. Gilbert, Nature 319 (1986) 618. 
R-103 R, F. Gresteland, and J. F. Atkins, The RNA World, Cold Spring 

Habor Laboratory Press, 1993. 

聚合 过 程 中 如 果 遇 到 ddNTP ， 就 无 法 继续 . 这 一 事实 后 来 所 发 了 -- 
种 DNA 测序 方法 (W 3.6.5) . 两 条 “与 社 ” (aH ikt”) 的 DNA 链 靠 
ARER. A 与 工 岂 有 两 个 毛 键 ， 称 弱 耦 合 ，G 和 CC TELA — TOA BE, A 
BEE. DNA 双 链 进一步 形成 螺旋 结构 。 从 携带 信息 的 角度 看 ， DNA 
双 螺 旋 中 的 ~- 条 已 经 含有 全 部 信息 ， 但 两 条 链 并 不 是 等 价 和 的 .后面 讨论 
DNA 复制 和 某 因 弃 链 于 分 布 时 ， 都 会 看 到 这 一 不 等 价 性 . RNA 通常 是 
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表 3.2 ME (HKEE) 的 标准 符号 


E 
A HC (OE) 

S  GsC(SMa) 
W A 帮工 (BB) 
B G gk T »£ C (ik A) 
D GSARAT (4C) 
H ASGCaT (4G) 
V Gd CK A(IET) 
N 


及 或 各 或 如 或 工 ， 即 任意 
不 定 长 度 的 空隙 


xx«2c42o»l3 
z 
E 
过 


单 链 ， 但 可 借助 不 同 部 位 上 的 互补 或 反 序 互补 片段 的 耦合 ， 形 成 一 些 二 
级 结构 。 这 类 二 级 结构 往往 对 基因 的 表达 起 调控 作用 . 由 RNA 的 一 维 字 
母 序列 预测 二 级 结构 ， 是 生物 信息 学 的 课题 之 一 . 

表 3.2 给 出 由 国际 生物 学 联合 会 (IUB) 和 国际 纯粹 和 应 用 化 学 联合 
È (IUPAC) 共同 制定 的 核 苷 酸 的 标准 符号 . 核 芋 酸 虽然 只 有 5 种 (DNA 
中 的 工 在 RNA 中 换 成 U) ， 它 们 的 各 种 组 合 都 有 一 定 的 符号 代表 ， 即 所 
R “£X” (ambiguity) 符号 .许多 软件 能 识别 这 些 符 号 . 


3.4.4 氨基 酸 和 蛋白质 


蛋白 质 是 由 氮 基 酸 聚 合 而 成 的 生物 大 分 子 ， 单 体 数 目 从 数 十 旬 数 千 
不 等 。 很 短 的 氨基 酸 链 不 能 独立 地 折 肥 成 特定 的 三 维 结构 ， 通 党 叫做 洛 
肽 ， 不 称 为 蛋白 质 . 氨基酸 是 比 核 背 酸 上 略 小 的 有 机 分 子 . 它 的 中 心 碳 原 
F, A a ik (Ca). C. 的 四 个 化 学 键 ， 一 个 接 羧 基 (COOH) 、 一 个 
EAE (NH2) 、 一 个 简单 地 连 氧 (E) ; 只 有 第 四 个 键 上 的 侧 链 R ， 从 -- 
个 H 到 接近 30 个 原子 的 基 团 ， 共 有 20 种 给 合 ， 导 致 20 AER AAR 
界 和 实验 室 里 合成 的 氨基 酸 不 止 此 数 ， 但 所 有 的 蛋白 质 只 由 这 20 种 氨基 
酸 组 成 、 R=H 的 甘氨酸 、 左 右 对 称 ， 不 具有 光学 活性 .其 他 19 种 氨基 
酸 都 有 左 、 右 之 分 ， 具 有 光学 活性 . 氨基 酸 聚 合成 大 分 子 时 ， 相 俩 的 丛 基 
ITUPAC-IUB Commissions on Biochemical Nornenclature, "Abbreviations and sym- 


bols for nucleic acids, polynucleotides and their constituents", Eur. J. Biochem. 15 
(1970) 203 — 208. 
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和 羧基 缩水 形成 相当 强 的 肽 键 . 因此 ， 和 蛋白 质 也 是 有 方向 的 一 维 链 ， 带 氨 
基 的 一 头 称 为 N 端 或 记 为 N ， 另 一 头 带 羧基 称 为 C 端 ， 常 用 C! XU. 
氨基 具有 三 字母 和 单字 母 两 套 符 号 ， 前 者 便于 记忆 ， 后 者 便于 计算 
机 处 理 , 表 3.3 给 出 由 IUB 和 TUPAC 共同 制定 的 氨基 酸 标 准 符 从。 许多 
通用 的 软件 如 BLAST( 见 [R-631]) 都 接受 表 3.2 和 表 3.3 中 的 符 导 。 


X 3.3 筑 基 酸 标准 符号 


"s EX 
A(Ala) AAR P(Pro) MAA 
B RERAMA ERE | Q(Gin) FARE 


C(Cys) — XM 
D(Asp RAAK 
E(Glu) AN 


R(Arg) WARE 
S(Ser) HAR 
T(Thr) FAM 


F(Phe) FAR U [I d x73 
G(Gly ”甘氨酸 V(Val) SEE 

H(His) mas W(Trp) EAR 

I(Ile) RAAM Y(Tyr) RAR 

K(Lys) #AR Z FARE AANI 
L(Leu) ZAM X 任意 

M(Met) PHAR * mitik 


N(Asn) R&M 不 定 长 度 的 空 院 


核酸 是 遗传 信息 的 携带 者 、 而 蛋白 质 是 信息 转化 成 生物 结构 和 功能 
的 表达 者 . 蛋 和 月 质 按照 外 形 和 在 生物 组 织 中 的 位 置 和 作用 ,粗略 地 分 成 二 
大 类 ， 

第 一 ， 纤 维 蛋 白 (fibrous protein) 。 筋 骨 中 的 胶原 (collagen) ， 毛 发 
中 的 角 和 蛋白 (keratin) ， 皮 肤 羽 毛 中 的 表皮 素 (epidermin) 等 . 

第 二 ， 跨 过 或 部 分 灸 内在 磷脂 膜 中 的 樟 蛋 白 . 它们 的 功能 是 实现 膜 
内 外 的 信息 交换 或 物质 传递 . 

第 三 ,大致 为 球形 的 球 蛋 白 . 它们 的 种 类 最 多 , 其 中 一 大 部 分 是 各 种 
生物 化 学 反应 的 催化 剂 ， 即 酶 . 这 也 是 最 重要 、 最 多 样 化 的 一 类 蛋白 质 . 
许多 生化 反应 如 果 没 有 相应 的 酶 协助 ， 反 应 速率 甚至 会 降低 到 原来 的 百 
万 分 之 一 以 下 ， 以 致 事实 上 停 小 进行 。 
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3.4.5 ”遗传 密码 


在 DNA 序列 的 编码 区 ， 每 三 个 核 些 酸 翻 译 成 蛋白 硕 中 一 个 特定 的 
TER., 表 3.4 按 转 录 后 的 mRNA 给 出 通用 的 三 联 体 密码 ， 部 工 已 换 成 
U 。 表 中 没有 再 写 氨 基 酸 的 中 文 名 字 ， 这 是 因为 考察 数据 库 申 的 蛋 户 质 
FEE, ANA jo ESI BI, 


表 3.4 通用 遗传 密码 表 


rR " F- EG HN EG 
| u c A G i 
F(Phe)  S(Se)  Y(Tv)  C(Oys) "ww — | 
U F(Phe)  S(Se) Y(Tyr)  C(Cys) € | 
L(Leu) S(Ser) 终 小 gap * A 
| L(Leu) — S(Ser) 终止 W(Trp) G 
A L(Leu  P(Pro  H(Hi) R(Arg) U | 
e L(Leu)  P(Pro)  H(His) R(Arg) NE. 
L(Leu) P(Pro) Q(€Gln) R(Arg) A ; 
L(Leu)  P(Pro) Qí(Gl)  R(Arg) G | 
Me) —T(Thr) N(Asn) S(Ser) U |] 
A Kle) — T(Thr) N(Asn)  S(Ser) ME 
Me)" — T(Thr)  K(Lys) — RtArg)'" A i 
MINMet) T(Thr)  Ki(Lys)  R(Arg)"" G 
à Vval) — A(Ala) D(Asp  — G(GW) AU D 
G V(Va) ^ A(Ala] Dí(Asp)  G(Gly) M 
V(Val) — A(Ala  E(Gl)  G(Gly) A i 
VVal) A(Ala} E{Glu)  G(Gly) M 


请 注意 ，64 EHET (codon) 中 有 三 个 终 引 密码 子 UAA, UAG fi 
UGA, HR 61 个 密码 子 编码 20 种 氨基 酸 ， 因 此 有 些 氮 基 酸 丰 多 种 编码 
( 简 并 ) 。 具 体 而 言 : 

三 种 氨基 酸 有 6 重 简 并 编码 : SEGUE Leu, LAR Ser AHAN 
Arg .五 种 氨基 酸 有 4 EBJE EA. MAR Val. AWAR Pro., AAR 
Ala, HAR Gly 和 苏 氨 酸 Thr. 有 3 重税 并 编码 的 是 异 亮 氨 龄 Tie 和 终 
止 密码 子 . 九 种 氨基 酸 有 2 CR BLUE RO. EPIS Phe, MAAR Fyr. 4H 
AR His. (SKI Gin, X € Bk Asn, WAR Lys, KEAK Asp. 


$3.5 f E those d 3 


TAE Glu AERAR Cys. DHARAKA TOR s 5: TI ARLECRE 
Met XI NE Trp . 
还 应 指出 ， 表 3.4 PHILEAS > arih RTPHE divo Eon Feu 
码 与 通用 密码 的 差别 ，“ 编码 色 氮 酸 Trp ; 7 ANASÉCIDTPSSI Ct |RSS 
PRAM Met. 因此 ， 线 粒 体 中 没 人 在 单 重 编码 的 氨基 龄 ,线粒体 的 DNA 
系 自 我 复制 , 但 在 -- 部 分 重 扣 质 要 在 细胞 质 中 合成 ,再 条 送 到 线 术 体 中 . 
因此 ， 代 一 种 观点 认为 线粒体 本 是 独立 生活 的 微生物 、 后 来 被 俘获 形成 内 
共生 关系 。 人 也 EBI [R-131] 或 NCBI [R .134] fj] 9t np br EF & Hus feu 
码 的 例外 情形 : 
R-104 EBI 的 iA f& S fe4-- 53 dé (Genetic Code Viewer) 。 lel hi: 
http://www2.ebi.ac.uk/ 
R-105 NCBI 的 Genetic Codes 表 ， 可 以 通过 其 网 页 
http://ncbi.nlm.nih.gov/ 
的 Taxonomy 选项 或 ORF Finder (R- 710! A. ixst A fia gi e 
GenBank [R-212] 数据 库 条 目 中 给 出 的 transiation table 57, 
肢 便 提 -- 下 ， 植 物 叶 绿 体 也 有 自己 的 DNA ， 甚 至 比 线 粒 体 DNA 还 
大 .它们 也 可 能 是 演化 过 程 中 形成 的 共生 物 , 细菌 除了 基本 的 DNA 链 或 
环 之 外 , 还 可 能 含有 数量 会 变化 的 DNA 小 环 成 链 , 称 为 质粒 (plastnid) . 
例如 ， 绍 苗 的 抗 药性 往年 就 编码 在 质粒 中 . 野生 型 细菌 常 有 多 种 质粒 ， 实 
和 验 室 培养 若干 代 之 后 . 质粒 的 品种 数量 会 减少 ， 这 些 都 是 染色 体 之 外 的 遗 
传 信息 携带 者 ， 


83.5 ”分子 生物 学 的 中 心 法 则 


DNA 双 螺 旋 结 梅 的 发 现 者 之 -上 下. H. C. Crick 在 事实 前 不 充分 的 
1957 年 ， 把 分 子 生物 学 中 的 主要 关系 概括 为 一 项 “中 心 教条 ” (central 
dogma) 14 。 它 后 来 被 众多 实验 事实 所 证 实 和 补充 ， 成 为 图 3.1 所 示 的 中 
必 法 则 . 简单 地 说 ， DNA 双 螺 旋 是 遗传 信息 的 模 带 者 、， 它 在 -- 定 条 件 下 
可 以 准确 地 自我 复制 。 遗传 信息 只 能 遂 过 最 线 的 蛋白 质 产 物体 现 或 “ 直 
" MF. H. C. Crick, "On protein synthesis". Symp. Sor. Erp. Biol 12 (1957) [38 
163, "Central dogma of molecular biology”, Nature 227 (1970) 561 - 563. 
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DNA -—*8..DNA 


转录 


cDNA -ŽŽ ËR mRNA 


翻译 


蛋白 质 / 酶 
vo* 


功能 EEPE ug 


图 3.1 分 子 生物 学 的 中 心 法 则 


达 ” 出 来 ,为 此 要 先 把 信息 “转录 ”到 单 股 的 信使 RNA ， 即 mRNA 链 
b. 后 者 与 前 者 的 差别 ， 仅 在 于 把 DNA 序列 中 的 横 成 U 、 然 后 再 有 有 
BON. 细胞 液 中 有 大 量 核糖 体 ， 它 们 是 根据 mRNA 上 的 信息 制造 蛋白 
质 的 生物 化 学 工厂 . 新 生 的 强 白 质 要 折 符 成 特定 的 三 维 形状 , 才能 有 生物 
活性 ， 在 生命 过 程 中 发 挥 功能 . 

在 DNA 序列 中 的 “基因 ”一 般 用 斜体 字母 命名 ， 人 而 基 因 表 达 的 产物 
蛋白 质 , 用 相应 的 正体 字母 表示 ,， 且 首 字 母 大 写 . 例如 ， 一 个 名 为 swaliow 
(sua) 的 基因 ， 表 达 后 的 蛋白 质 记 为 Swa . 

下 面 分 成 小 节 ， 简 略 说 明 中 心 法 则 提 到 的 几 件 事 . 


3.5.10 DNA 的 复制 


DNA 的 自我 复制 是 细胞 周期 中 的 重要 事件 . 一 旦 复制 开始 ,细胞 当 
然 不 能 分 裂 ; 而 DNA 复制 的 结束 就 会 触发 细胞 的 分 休 。 复制 过 程 靠 许多 
种 酶 帮助 ， 其 中 最 重要 的 是 DNA RAK. DNA RAN HADES 


!55 DNA Xaf&&ir £35, ox E E UEIGE EIOS TIH 类 、 即 DNA polymerase HL. 
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理解 复制 过 程 十 分 重要 ， 

第 -~-， 它 作用 的 方向 ， 只 能 从 S 端 往 3 端 发 展 . 

第 二 ， 它 不 会 凭空 促进 到 合作 用， 而 必须 以 一 条 DNA 单 链 作 模板 ， 
模板 的 3' 端 要 先 有 小 小 一 段 看 合 好 的 双 链 引物 (primer) .这 些 引 物 是 引 
物 酶 (primase) 协助 合成 的 小 段 RNA .引物 的 3/ PRO ZEE, DNA X 
合 酶 就 从 那里 开始 根据 模板 要 求 ， 把 适当 的 核 苷 酸 校 5 一 3 方向 聚合 上 
去 ， 形 成 双 链 . 

仔细 思考 一 下 ， 就 发 现 复 制 过 程 并 不 简单 .首先 ，DNA 双 螺 旋 要 在 
复制 起 点 解 旋 ， 暴露 出 两 条 单 链 作 育 合 模板 .复制 起 点 是 特定 的 ,例如 在 
大 肠 杆 菌 中 是 称 为 OriC 的 位 点 . 复制 起 点 两 倒 ， 形 成 两 个 “复制 叉 "， 在 
电子 显微镜 下 像 一 只 眼睛 (EHR). 两 个 复制 及 或 向 相反 方向 发 展 ， 
或 一 个 固定 、 一 个 前 进 ， 在 复制 叉 后 面 的 两 条 单 链 ， 一 条 链 从 3 到 5 ， 
其 引物 方向 正好 允许 DNA 聚合 酶 顺利 地 按 模 板 聚 合 出 相应 的 共 印 链 : 这 
是 复制 的 先导 链 . 另 一 条 单 链 从 5' 到 3 方向、 其 上 RNA 引物 在 DNA X 
合 酶 帮助 下 只 能 向 着 与 复制 过 程 相 反方 向 延长 , 长 出 一 个 小 片段 . 这 时 复 
制 叉 后 面 的 空白 单 链 上 已 经 形成 又 一 小 段 引物 ， 往 反方 向 聚合 新 的 双 链 
片段 。 这 些 分 别 形 成 的 轩 崎 片段 (Okazaki fragments) ， 要 在 特定 的 酶 协 
助 下 修补 、 连 接 ， 同 时 第 工 类 DNA 诊 合 酶 把 引物 RNA 变 成 DNA ， 最 
终 产 生 完整 的 共 罩 链 。 这 条 手续 繁杂 的 链 ， 成 为 复制 过 程 中 的 滞后 链 . 

无 论 是 原核 生物 还 是 真 核 生物 ， 都 按 上 述 模 式 复制 ,只 是 真 核 生物 
可 能 有 多 个 复制 起 点 ,参与 复制 过 程 的 酶 数目 和 品种 有 所 不 同 . 为 分 子 克 
隆 制 备 “载体 ”时 ， 都 要 恰当 地 包含 复制 起 点 ， 外 源 基 因 才 能 看 宿主 细胞 
内 复制 增殖 ， 见 3.6.2 小 节 . 


3.5.2 DNA 到 mRNA 的 转录 


双 股 DNA 螺旋 的 每 一 股 上 上， 都 散布 着 长 短 不 等 的 包含 遗传 信息 的 
片段 ， 妈 “基因”. 观察 一 个 基因 ， 从 5/3 E 3 看 ， 首 先是 一 段 并 不 翻 泽 
成 蛋白 质 的 区 域 ， 革 所谓 5UTR [X (UTR=UnTranslated Region}. 这 一 
区 域内 有 一 些 起 控制 作用 的 “ 字 *"， 通常 是 某 种 蛋白 质 (R, DIT) 的 结合 
位 点 ， 秽 如 启动 子 (promotor) 、 增 强 子 (enhancer) 等 。 然 后 是 编码 区 的 
起 始 密 码 子 ， 最 常见 的 是 编码 甲 硫 氮 酸 的 ATG ， 也 有 不 少 例外 .编码 区 
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以 三 个 终止 密码 子 之 -- 结 来 、 然 后 是 3UTR 区 ， 这 里 主要 是 一 些 有 关 结 
XPRESS EL. 

Abd RNA 聚合 酶 的 结合 点 ， 由 此 开始 转录 。 启 动 子 前 后 还 侍 
若干 其 他 起 控制 作用 的 DNA 片段 . 特别 是 在 真 核 生 物 中 、 这 些 控制 片段 
昌 为 多 样 。 典 型 的 启动 子 常 包含 TATA 片段 、CAAT 片段 等 ， 作 没有 这 
些 片段 的 启动 子 也 不 少 。 各 种 转录 因子 帮助 RNA GNE à S EE dH 
EL. 启动 和 完成 RNA 的 转录 , 目前 基因 组 测序 速度 远 远 超过 实验 答 证 
的 可 能 性 。 因 此 ， 人 们 不 得 不 越 来 越 多 地 依赖 计算 机 村 找 基 过 ， 有 关 启 
动 子 和 转录 因子 的 数据 库 和 软件 很 多 ， 如 TRANSFAC [R-219| 、TRRD 
(R-221], COMPEL [R-227] 等 ， 还 有 一 些 专门 识别 调控 片段 的 程序 ， 如 
GeneExpress [R-720] 、 Promotor Scan [R-727] 、 Signal Scan [R 728] , 
TFSearch [R 729] ,  PatSearch [R-730] 、 PromFD [R-734] 等 。 


真 核 生 物 刚 从 DNA 转录 出 来 的 mRNA 前 体 (pre-mRNA) 还 要 继续 
加 工 ， 才 能 作为 成 熟 的 mRNA ， 经 过 核 孔 送 到 细胞 质 中 的 核糖 体 去 翻译 
成 蛋白 质 。 如 工 的 主要 内 容 是 前 去 不 表达 的 内 合子 (ntron) , Wk Z 
表达 的 外 显 子 (exon) 连接 起 来 。 内 含 子 和 外 显 子 的 长 短 多 赛 不 - -。 苦 好 
有 一 个 长 76 个 碱 基 的 tRNA 基因 , 被 长 度 为 14 REKAST. A 
的 甲状 腺 球 蛋 白 基因 总 长 约 10 万 个 碱 基 , 被 40 FRASTER, MER 
码 蛋 白质 的 序列 只 有 约 8500 个 碱 基 。 预测 内 含 子 和 外 显 子 的 剪接 点 ， 是 
生物 信息 学 的 一 项 重要 课题 . 现在 已 经 有 多 个 内 含 子 、 外 显 子 各 的 接 的 数 
据 库 ， 如 ASDB [R-242]. IDB [R--244] 、 ExEnt [R-246] 和 Intronerator 
[R-243] 等 . 


3.5.3 mRNA 翻译 为 蛋白 质 


核糖 体 是 根据 mRNA 上 的 编码 信息 制造 蛋白 质 的 生物 化 学 [1 
个 细菌 细胞 里 大 约 有 两 万 个 核糖 体 ， 而 契 核 细胞 里 则 多 达 百 廊 。 它们 的 
结构 大 同 小 异 ， 都 是 由 相当 复杂 的 rRNA 骨架 和 许多 和 蛋 白质 维 成 的 复合 
fk, 由 大 小 两 个 亚 基 组 成 . 大 肠 杆 菌 的 核糖 体 大 亚 基 由 一 个 23S rRNA 和 
一 个 55 rRNA 作 骨 架 ， 上 面 结合 了 31 个 重 白质 ， 而 少 亚 基 的 16S rRNA 
肯 架 上 结合 了 21 个 蛋 和 白质 (关于 S 这 个 特 曾 单位 ， 请 参阅 3.6.4 小 节 ) ， 
最 近 发 表 了 细菌 核糖 体 小 亚 基 的 5.5&A(0.55nm) 分 辨 率 的 结构 15, m8 SL JJ 


16W, M. Clemons, Nature 400 (1999) 833 - 840. 
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物 核糖 体 大 亚 基 有 288. 5.88 和 5S 三 个 rRNA 以 及 49 个 蛋 向 质 ， 小 亚 
基 有 一 个 185 rRNA 和 33 EÉ. 

下 面 以 原核 生物 为 例 ， 考 察 一 下 根据 mRNA 所 携带 的 信息 制造 蛋白 
MWR Wr” de. 

首先 , 有 -一 批 酶 协助 mRNA 和 核糖 体 完成 蛋白 质 的 生产 : 起 始 因子 帮 
Bj mRNA 先 和 空 闪 的 小 亚 基 结合 ， 找 到 携带 第 一 个 甲 硕 氨 酸 的 tRNA ， 
再 把 它们 和 大 亚 基 拼接 到 一 起 ,开始 翻译 ; 延长 因子 使 翻译 过 程 -- 直 继续 
下 去 ,新 生 的 航 链 不 断 延长 ， 最 后 达到 终止 密码 子 时 ， 由 结束 因子 终止 翻 
译 过 程 ， 新 生 的 蛋白 质 肽 链 和 mRNA 离开 核糖 体 ， 大 小 亚 菇 分开， 等待 
下 一 轮 合成 任务 . 起 始 因子 ,延长 因子 和 结束 因子 都 有 多 种 ， 各 避 其 职 ， 
TTAF. 

AEH “BE” RH — KOÉE tRNA 完成 的 。 每 个 tRNA 有 一 只 由 三 
个 相连 的 “ 反 ” 密 码 子 组 成 的 “ 脚 *， 和 一 只 抓 住 与 相应 密码 子 对 应 的 氨 
ERG “F”. SERRE mRNA 上 人 恰好 合适 的 密码 子 时 ， 那 个 氨基 
酸 就 被 带 来 接 到 新 生 肽 链 的 末端 .一 般 说 来 ， 同 一 时 间 在 核糖 体 里 ， 硼 
三 个 tRNA ， 一 个 携带 着 下 一 步 沉 要 的 氨基 酸 ;， 一 个 带 着 已 经 合成 的 肽 
链 ， 淮 备 把 新 的 氮 基 松 接 上 去 ， 第 三 个 tRNA 在 上 一 步 里 已 经 把 接 好 氨 
基 酸 的 肘 链 转交 给 带 来 氨基 酸 的 那个 tRNA 、 现 在 空 着 手 准备 离开 核糖 
体 到 细胞 质 里 去 寻找 合适 的 氨基 酸 , 继续 执行 运输 任务 . 由 于 遗传 密码 的 
“R”, tRNA 有 许多 种 .即使 是 密码 唯一 的 围 硫 氨 酸 ， 对 应 于 起 始 密 
码 AUG 和 延长 用 的 AUG, K tRNA (t£ Sj. 据说， 细胞 质 中 至 少 要 
有 31 种 tRNA 和 相应 的 氨基 酸 ， 翻 译 过 程 才能 不 断 进行 

原核 生物 细胞 中 ， 许 多 核糖 体 可 以 “ 骑 ” 在 一 条 mRNA | 复制 蛋白 
质 ， 一 条 mRNA 可 以 多 次 参与 翻译 过 程 . 各 种 醇和 mRNA, tRNA. 
rRNA 等 ， 既 是 翻译 过 程 的 执行 者 ， 又 是 翻译 的 产物 . 它们 都 寿命 有 限 ， 
最 终 被 其 他 的 酶 降解 .只 要 生命 在 继续 ,就 要 不 断 地 合成 蛋白 质 ， 人 体内 
绰 白质 的 平均 寿命 约 为 两 章 . 
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3.5.4 mRNA 的 反 转 录 与 cDNA 


最 初 人 们 曾经 以 为 , 遗传 信息 只 能 从 DNA 传 到 mRNA , 再 从 mRNA 
MIRER, 由 蛋白 质 来 “表达 ”这 些 信息 , 即 体 现 为 各 种 生物 功能 . 然 
而 ， 1970 年 D. Baltimore 和 W. H. Temin 等 人 同时 发 现 !7 ， 有 些 RNA 
病毒 会 把 RNA 反 转 录 成 DNA , 并且 找 到 了 促成 这 一 过 程 的 反 转 录 酶 . 
人 们 扩展 了 对 中 心 法 则 的 认识 (参看 脚注 所 引 间 一 期 《自然 》 周 刊 ，1198 
-1199 页 ) 。 更 重要 的 事实 是 ， 反 转录 酶 可 以 在 试管 里 把 mRNA 反 转 录 
成 DNA , 这 样 的 DNA 里 没有 内 含 子 , 特 称 为 互补 DNA (complementary 
DNA, ， 简 称 cDNA). 


真 核 生物 每 个 细胞 核 里 都 有 全 套 染 色 体 和 遗传 信息 . 然而 , 在 不 同 的 
组 织 和 环境 中 ， 只 有 一 部 分 基因 被 表达 为 蛋白 质 . 所 有 要 表达 的 基因 ， 都 
有 相应 的 mRNA 被 转录 和 加 工 . 原则 土 可 以 提取 一 定 组 织 如 肝脏 细胞 中 
的 全 部 mRNA ， 把 它们 反 转 录 成 稳定 而 便于 保存 的 cDNA ， 形 成 cDNA 
BE (注意 ， 这 不 是 “ 文 ” 库 或 数据 库 ， 而 是 存放 在 容器 中 的 实物 ) . 目前 可 
以 从 外 国 基 因 工 程 公司 ， 购 买 现成 的 一 定 组 织 器 官 的 cDNA 库 ， 从 中 发 
现 未 知 的 基因 . 


3.5.5 蛋白质 的 剪接 


20 世纪 90 ERER, AER EREE EHAE, BAER 
起 来 ， 才 变 为 成 熟 的 功能 蛋白 . 这 称 为 蛋 和 白质 的 剪接 ， 与 内 含 子 (intron) 
和 外 显 子 (exon) 类 比 ， 被 草 切 掉 的 肤 链 称 为 “内 质 ” (intein) 或 “和 蛋白质 
内 含 子 ”"”， 而 保留 下 来 的 部 分 称 为 “外 质 ” (extein) . 内 质 序列 的 N 端 大 
AA 100 个 氨基 酸 ，C 端 大 约 有 50 TAEK, HRNEK. 这 两 个 剪接 
区 各 自 有 一 些 保守 的 模 体 (motifs) . 详细 情况 可 参看 InBase [R-436] 数据 
库 及 库 中 文献 单 . 


17D. Baitimore 和 W. H. Temin and S. Mizutani 的 两 篇 文章 发 表 在 同 -- 期 CELA STU 
上 ， 见 Nature 226 (1970) 209 - 213. 
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3.5.6 ”和 蛋 白质 的 折 和 又 


新 生 的 航 链 必须 折 破 成 唯一 的 、 特 定 的 三 维 结构 ， 才 能 发 挥 生物 活 
性 , 成 为 真正 的 蛋白 质 ，C. B. Anfinsen 的 早期 实验 , 证 明 折 和 营 所 需 信 息 完 
全 包含 在 氨基 酸 排 列 成 的 一 维 链 中 ， 他 因此 荣获 1972 年 诺 贝尔 化 学 奖 . 
氮 茜 酸 或 代表 它们 的 20 个 字母 的 排列 顺序 ， 称 为 蛋白 质 的 一 级 结构 . 二 
级 结构 是 由 氧 键 维系 的 o 螺旋 和 6 Fr. 三 级 结构 是 完全 折 重 好 的 重 白 
质 的 空间 结构 . 四 级 结构 是 多 个 蛋白 质 亚 基 组 成 蛋白 质 复 合体 的 结构 . 


HB, X 射线 上 唱 停 衍射 分 析 和 核磁 共振 (NMR) 是 测定 三 级 结构 的 
主要 手段 . 做 X 衍射 要 求 事先 把 蛋白 质 结晶， 而 这 远 非 易 事 。 NMR Huy 
在 溶液 中 做 而 不 要 求 结 晶 , 但 目前 只 能 分 析 较 小 的 蛋白 质 . 蛋白 质 三 维 结 
构 的 测定 , 虽然 从 20 世纪 50 年 代 的 几 年 测 一 个 结构 , 发 展 到 现在 每 个 月 
平均 测定 160 个 以 上 ,但 仍然 远 远 落后 于 核酸 序列 的 测定 速度 . 蛋白 质 结 
构 数 据 库 如 PDB [R-441], fk 1999 年 底 收 有 详细 三 维 原 子 坐 标的 蛋白 质 
BREER 1 万 种 ， 但 从 基因 序列 项 译 出 的 蛋白 质 序列 ， 增 长 速度 月 以 千 
计 ， 完 全 不 可 能 依靠 实验 手段 一 一 测定 他 们 的 结构 和 功能 . 因此 ， 蛋 白质 
结构 和 功能 的 预测 成 为 生物 信息 学 的 重要 任务 .分 析 已 知 蛋白 质 序列 和 
结构 为 从 气 基 酸 序列 预测 蛋白 质 的 结构 与 功能 ， 提供 愈益 增加 的 根据 . 

近年 来 人 们 注意 到 、 丰 二 级 结构 和 三 级 结构 之 间 ， 由 a 螺旋 和 S 片 
组 装 成 的 紧凑 折 春 起 来 的 单元 ， 对 于 蛋白 质 结构 的 分 类 和 预测 有 重要 作 
用 , MOS "ER SC" 或 简称 折 委 (fold) . 尽管 蛋白 质 序 列 数 目 以 百 万 计 ， 
折 速 的 种 类 却 极为 有 限 ， 很 可 能 不 超过 1000 种 . 

另 一 方面 ， 蛋 白质 的 氮 基 酸 序列 中 有 一 些 在 演 化 过 程 中 最 为 保守 的 
单元 ， 称 为 结构 域 (domain) ,一 个 结构 域 不 能 再 划分 为 更 小 的 结构 域 . 
有 的 蛋白 质 只 包含 一 个 结构 域 有 些 蛋 白 由 多 个 结构 域 串 起 来 组 成 . 结构 
域 通常 对 应 二 级 结构 的 某 种 紧 致 排列 , 可 以 相对 独立 地 进行 折 县 , 并 有 玖 
水 核心 . 共有 序列 相似 性 的 结构 域 ， 对 应 相同 的 折 枉 单元 ;这 是 同 源 性 的 
fW. 具有 相同 折 释 的 结构 域 ， 不 一 定 同 源 . 蛋白 质 同 源 性 的 分 析 ， 宜 着 
眼 结构 域 层 次 , 而 不 从 整个 氨基 酸 序 列 入 手 . 关于 结构 域 的 早期 讨论 ， 可 
参看 : 


15 为 避免 与 foid 混淆 ， 我 们 不 用 BHE R RRK” HKE. 
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HR-106 J. Janin, and C. Chothia, Meth, Enzymol. 115 (1985) 420 130. 


在 比 结构 域 更 小 的 层次 上 上 , 序列 土 有 相似 性 的 一 些 区 域 称 为 motif, 
建议 音译 为 “ 模 体 ” o, -EREA IEEE RE. 卷曲 螺旋 (coiled 
coil) 、 力 至 信号 肽 链 ， 有 时 也 被 称 为 模 体 。 关 于 模 体 的 较 近 讨论 ， 请 看 

R-107 P. Bork, and E. V. Koonin, Curr. Op. Struct. Biol. 6 (1996) 366 - 

367. 


AMANE E EG gr de zc p E TX FEHLER (E — 18, PHI a 螺旋 和 
B 片 形成 的 、 出 现在 许多 彼此 无 关 的 蛋白 质 折 释 中 的 较为 出 定 的 组合 . 
在 本 书 第 4 章 所 介绍 的 数据 库 中 , 不 少 涉 及 结构 域 . 模 体 . 模式 (Pat- 
tern) , $£X (profile) 、 折 倒 等 ， 它 们 并 不 都 有 彼此 一 致 的 定义 和 用 法 . 
读者 切 不 可 从 字面 取 意 ， 而 应 参考 相应 数据 库 的 详细 说 明 ， 
蛋 户 质 折 各 问题 有 两 个 层面 .。 一 是 解释 为 什么 如 此 众多 的 贷 基 版 序 
列 只 导致 数目 有 限 的 折 且 方式 ,二 是 预测 给 定 序 列 的 具体 三 维 结构 。 临 者 
是 一 个 真正 的 物理 问题 ， 耐 后 者 是 蛋白 质 设 计 或 基因 工程 关心 的 焦点 ; 
正如 说 明 物 质 三 态 和 气 液 由 变 是 物理 学 的 任务 ， 而 测 呈 或 计算 出 酒精 的 
确切 沸点 是 材料 科学 的 课题 . 为 了 说 明 前 一 问题 , E ASEALT REL UTE 
的 最 简单 模型 ， 即 把 20 种 氨基 酸 归 并 为 鸣 水 (hydrophobic BB. H) 和 极 性 
(polar 即 P) pg3E, RÆ EA OCAR k SERE SI SOS B5 BE XS]. 这 
就 是 HP 模型 : 
R-108 K. A. Dill, Biochemistry 24 (1985) 1501; H. S. Chan, and K. A. Dill. 
Macromolecules 22 (1989) 4559. 
近来 李 潍 、 汤 超 等 穷 举 了 基 些 有 限 格 点 HP 模型 的 结构 和 序列 ， 引 
入 结构 的 可 设计 性 (designability) WES, iE 8H SE XC CHER HE AY 
可 设计 性 高 的 少数 结构 : 
R-109 H. Li, R. Helling, C. Tang. and N. S. Wingreen, Science 273 (1996) 
666; Proc. Natl. Acad. Sci. USA 95 (1998) 4987. 
对 蛋白 质数 据 库 如 PDB (R-441] 和 Dali [R-467] 中 的 实际 序列 作 HP 
约 化 ， 可 以 看 出 可 设计 性 与 折 和 全 早期 迅速 形成 a 螺旋 有 关 : 
R-110 C. T. Shih, Z. Y. Su. J. F. Gwan, B. L. Hao( guó f &&k), C. H. Hsieh, and 


19 有 人 把 motif X "Xen. “EEE 等 . 
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H. C. Lee, "The HP model, designability and alpha-helices in protein 
structures", Phys. Hev. Lett. 84 (2000) 386 - 389. 


将 20 种 氨基 酸 归 并 为 H 和 P 两 类 , 虽 能 抓 住 折合 初期 的 某 些 特点 ， 
终 属 过 度 约 化 。 有 实验 表明 ， 归 结 为 5 类 氮 基 酸 的 约 化 方式 ， 可 能 足以 反 
映 折 彼 过 程 的 实质 : 
R-111 D. S. Riddle 等 7 位 作者 ， Nature Struct. Biol. 4 (1997), 805 - 809. 


LEER *35 — a ER" HAE, MAEA AZA, imo CT 
大 。 前 几 年 有 人 估计 ， 按 当前 计算 速度 的 发 展 外 推 ， 可 能 到 2030 年 左右 
可 以 实现 . 参看: 
R-112 H. S. Chan, and K. A. Dill, "The protein folding problem". Physics 
Today, February 1993, 24 - 32. 


83.6 ”基因 工程 技术 简介 


分 子 生物 学 的 许多 发 现 , 可 以 用 来 加 工 特定 的 DNA 片段 , 用 生物 方 
法 大 地 产生 某 些 基因 或 基因 产物 . 这 就 导致 了 基因 工程 和 全 新 的 生物 技 
R. 基因 工程 所 用 到 的 许多 技术 ， 也 是 实验 室 中 不 可 或 缺 的 手段 .我 们 极 
其 简要 地 叙述 一 些 基本 概念 ， 主 要 是 为 了 以 后 介绍 生物 数据 库 和 软件 算 
法 时 ， 知 道 一 点 背景 . 


3.6.1 陋 制 性 内 切 酶 


20 世纪 60 ERK, 在 大 肠 杆 菌 中 首先 发 现 了 一 种 醇 ， 它 会 准确 识别 
外 来 的 DNA ， 并 且 在 特定 的 位 点 把 后 者 切断 . 这 就 是 限制 性 内 切 酶 . 为 
了 保护 自己 的 DNA 不 被 误 切 , 大 肠 杆 菌 还 生产 甲 基 化 酶 , 把 本 身 的 DNA 
按 一 定 规律 甲 基 化 . 即 把 某 些 特定 位 置 上 的 握 (H) 换 成 甲 基 (CH). 若干 
内 切 酶 和 甲 基 化 酶 组 成 一 个 微生物 的 一 种 防御 系统 .现在 已 经 在 各 种 微 
生物 中 发 现 3000 PA E FUBIPEPS UNS, E rI LIE rz A ABS 300 Fr. 
许多 限 赫 性 内 切 航 的 识别 位 点 是 4 下 8 个 字母 的 “ 回 文 ” (palindrome) , 
如 cgcg 、 ccgg 、 cctagg 等 ， 它 们 在 DNA 双 螺 旋 的 两 股 上 等 同 。 当 前 切 
点 在 两 股 DNA 上 错开 ， 形 成 “ 粘 端 "， 就 更 有 利于 加工 后 重新 联接 ， 因 
而 在 基因 工程 中 有 广泛 应 用 。 甲 基 化 酶 也 已 知 多 种 , 也 有 特定 的 四 基 化 位 
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点 。 请 参看 内 切 酶 和 甲 基 化 酶 的 数据 库 REBASE [R-424] .限制 性 内 切 
酶 是 遗传 研究 和 基因 工程 的 重要 工具 . 把 染色 体 DNA 用 两 种 识 曾 位 点 不 
同 的 内 切 酶 先后 处 理 两 次 , 测量 出 所 得 各 片段 的 大 小 , 原则 上 就 是 以 恢复 
出 这 些 识 别 位 点 在 原来 序列 中 的 排列 顺序 . 这 叫做 酶 切 图 谱 (restriction 


map). 


3.6.2 ”分子 克隆 


克隆 是 一 个 极 不 成 功 但 又 约定 俗 成 的 译名 ， 意 思 是 用 某 种 无 性 繁殖 
FR, 再 生产 出 生物 分 子 、 细胞 、 乃至 个 体 . 这 里 只 讲 分 子 克隆 , 即 用 生物 
方法 而 不 是 化 学 合成 来 复制 生物 大 分 子 . 下 面 省 略 许多 技术 细节 ， 只 讲 基 
本 概念 . 假定 已 经 从 某 种 染色 体 里 分 离 出 一 段 DNA ， 要 把 它 增 殖 到 较 多 
数量 ， 才 便于 研究 . 我 们 请 大 肠 杆 菌 来 帮助 . 先 选择 一 种 载体 (vector) ， 
通常 是 DNA 序列 已 经 清楚 的 质粒 (例如 长 度 为 4 361 碱 基 对 的 pBR322) 
或 噬菌体 (例如 长 度 为 48 502 碱 基 对 的 入 噬菌体) . 这 些 载体 的 醇 切 图 庶 
可 以 在 许多 手 朋 中 查 到 . 选取 适当 的 内 切 酶 把 DNA 的 两 端 加 工 好 ， 并 把 
SU dE IER NDERIT. 利用 聚合 酶 和 连接 和 酶 把 DNA 和 相应 的 遗传 标 
记 连 接 进去 .然后 把 这 些 带 有 所 需 DNA 的 载体 引入 大 上 肠 杆 菌 内 ,大肠 杆 
菌 并 不 能 察觉 质粒 带 有 异物 ,噬菌体 也 会 继续 在 大 肠 杆菌 中 繁殖 . 若干 代 
之 后 ， 再 利用 康 设 的 标记 把 载体 分 离 , 用 内 切 萌 割 出 所 要 的 DNA HE, 
它们 的 数量 已 经 大 为 增加 . 


分 子 克 隆 能 复制 的 DNA 大小， 依赖 于 所 用 载体 . 普通 质粒 可 容纳 几 
千 碱 基 对 .选用 包含 名 为 cos 的 粘 端的 一 段 和 噬菌体 接 入 质粒 载体 ， 可 
以 克隆 长 达 45 000 碱 基 对 的 DNA ， 特 称 为 粘 粒 (cosmid) . 

用 质粒 或 哈 菌 体 作 载体 ， 只 能 增殖 较 小 的 DNA 片段 . 后 来 发 现 ， 可 
以 制备 酵母 人 工 染色 体 (Yeast Artificial Chromosome ， 简 称 YAC) 、 令 其 
随 醇 母 的 有 经 分 裂 而 增殖 . 

一 个 YAC 载体 是 由 以 下 几 部 分 组 成 的 双 链 DNA 环 : — SERERE CS 
体 的 着 丝 粒 及 将 来 分 离 用 的 遗传 标记 ， 着 丝 粒 用 来 增加 YAC 的 稳定 性 ; 
一 段 带 复制 起 点 和 遗传 标记 的 大 有 申 杆 菌 DNA 序列 , 它 还 含有 一 个 克隆 位 
点 ; 一 对 来 自 四 膜 虫 (7etrahymena] 的 染色 体 端 粒 .两 个 端 粒 用 一 段 将 来 
要 切除 的 DNA EEK, RAAR., 环 状 YAC 载体 可 像 普 遂 质粒 一 样 在 
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大 肠 杜 菌 中 增殖 。 把 载体 分 离 出 米 之 后 , HR UTE A 0) OD] TT EE, 
把 特定 的 DNA 片段 连接 进去 . 用 另 一 种 内 切 楷 把 端 粒 间 的 DNA ER, 
形成 线性 的 人 工 染色 体 ， 这 样 的 YAC 可 在 酵母 细胞 中 增殖 . 用 YAC 可 
以 克隆 长 达 百 万 碱 基 对 的 DNA 序列 .关于 YAC 方法 的 最 初 描 述 ， 请 参 
看 : 

R-113 D. T. Burke, G. F. Carle, and M. Y. Olson, “Cloning of jarge seg- 
ments of exogenous DNA into yeast by means of artificial chromosome 
vectors", Science 236 (1987) 806 — 812. 
许多 细菌 的 DNA 比 酵母 的 单个 染色 体 还 大 , «rar HEU G mA T. 

染色 体 (Bacterial Artificial Chromosome ， 简 称 BAC) ,来 克隆 长 的 DNA 
片段 .请 参看 ， 

R-114 H. Shizuya 等 ?位 作者 ， “Cloning and stable maintenance of 300- 
kilobase-pair fragments of human DNA in Escherichia coli using an 
F-factor-based vector", Proc. Nati. Acad. Sci. USA 89 (1992) 8794 - 
8797. 

大 肠 杆 菌 Pl RA f 也 可 以 容纳 较 长 的 DNA 片段 ， 例 如 平均 长 度 
达 85000 碱 基 对 的 序列 。 这样 的 环 状 载体 连同 接 进去 的 DNA HEX, RE 
可 比 原来 Pl 的 DNA 大 很 多 ， 有 时 叫做 PAC, 

BAC, YAC 和 PAC 都 广泛 应 用 于 各 种 基因 组 的 测序 . 


3.6.3 ”聚合 酶 链 反 应 (PCR) 


20 世纪 80 年 代 初 , 在 Cetus 公司 工作 的 Kary Mullis 发 明了 一 -种 可 使 
DNA 片段 增殖 百 万 倍 的 聚合 酶 链 反 应 技术 (Polymerase Chain Reaction , 
简称 PCR). 现在 已 经 发 展 出 PCR 的 许多 变种 ， 我 们 只 介绍 最 基本 的 散 
法 . 实现 PCR 需要 以 下 条 件 : 微量 待 增殖 的 双 链 DNA 片段 , 耐 热 的 DNA 
聚合 酶 ， 恰当 的 引物 ， 足 够 的 dNTP 单 体 ,以 及 促进 酶 活性 的 镁 离子 等 
先 把 上 述 混合 物 加 热 到 94°C (Ri 5 min ， 双 链 分 离 成 单 链 DNA. RA 
到 30°C ~ 65"C 、 保 持 30 min ， 引 物 结合 到 单 链 DNA HE., GW. 在 
65°C ~ 75°C 保持 2~5 min, DNA 聚合 酶 杠 据 单 链 模板 把 引物 延长 成 双 
GE. 这 时 所 要 的 DNA HC CdeGR. FAHRE 94°C 重复 以 上 过 程 。 理 想 
情况 下 ， 20—30 次 循环 就 可 以 增殖 227? ~ 2?? f$, PCR 所 用 的 DNA X 
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€ BIET: B2 P3 e if xb IE n BE HEC TRE PE. EURE., AREE AC LU PEE AO Hh pl i o ANE 
出 来 的 DNA 聚合 酶 对 PCR 的 发 展 起 了 重要 作用 .关于 PCR (62 g Hips 
述 ， 请 参看 ， 
R-115 K. Mullis 等 6 位 作者 ， "Specific enzymatic amplification of DNA in 
vitro: the polymerase chain reaction", Cold Spring Harbor Symposia 
on Quantitative Biology 51 (1986), 263 - 273. 
K. Muliis 于 1993 年 获得 诺 贝 尔 化 学 奖 . 顺便 指出 ， 美 同 《 科 学 》 有 周 
PIXE 1986 年 拒 发 Mullis 的 文章 ， 而 1989 年 该 利 把 PCR. 选 为 当年 的 大 
事 . 


3.6.4 HRE O., RR ekme E 


EREA — EEEE AS PRASE CT E ADPABE, SA 
EATEN HRE EPELE EN HAER. AWIE H AS E S 
机 、 质 谱 分 析 、 凝 胶 电 泳 等 各 种 手段 来 实现 分 离 . 

超 巡 离心 机 中 大 小 分 子 集团 沉降 速度 不 同 ， 带 来 了 -- 个 并 不 准确 全 
已 不 能 摆脱 的 计量 单位 ， 即 沉降 系数 S 或 称 Svedberg 单位 . Bt on 
的 分 子 集团 受到 的 离心 力 是 ?n(1- op)e?r ， 这 里 o 是 分 子 集团 的 比 容 ， 
PP 是 水 溶液 密度 ，w 是 旋转 角速度 ，r 是 距 旋转 轴 的 距离 . 离心 力 与 摩 扎 
力 kv 平衡 时 ， 沉 降 速 度 v 可 以 算出 来 . 通常 取 沉 降 速度 和 角 加 速度 之 比 
v/e?r 作 尺 度 ， 称 为 若干 S。 SI EIERA B E 195-10 "s. 如果 所 
有 分 子 集团 的 比 容 o 部 一 样 ，S 就 比例 于 m. 但 生物 大 分 子 和 细胞 器 等 
恰恰 不 是 这 样 . 因此 ， 3.5.3 小 节 中 提 到 的 23S rRNA 确实 比 16S rRNA 
分 子 量 大 ， 但 并 非 成 简单 比例 . 

识 胶 电泳 的 思想 很 简单 .在 铺 平 的 凝 胶 表面 上 ， 梳 出 车- 下 规 玫 平行 
的 小 槽 . 小 寞 一 头 的 “ 井 ” 中 放置 要 分 离 的 混合 液体 ， 其 中 一 个 “ 片 ” 电 
是 分 子 量 分 布 已 知 的 标准 混合 体 . 加 上 电场 后 , 访 体 中 的 大 小 分 子 集团 党 
小 档 向 另 一 端 扩 散 、 轻 者 快 ， 重 者 爆 (运动 速度 与 质量 的 对 数 成 反比 ) ， 
隔 一 定时 间 后 就 分 成 许多 条 纹 . 与 标准 样品 对 比 ， 可 知 凶 个 条 绞 村 应 的 分 
TÉ. 

1975 年 E. M. Southern W "3" SE 5t pe dg C03 DNA 先 寞 性 成 单 
WE. MEIE ERR, Ld DOE FRR. 水 分 入 试纸 扩散 ， 把 
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BENE Aiit E PuRR 4L AT HE XCERR C. 再 同 放 射 性 YP bxc UL WES 6 Eh 
DNA 杂交 ， 就 可 以 把 特定 的 DNA 片段 鉴定 和 分 离 出 来 ， 这 在 手 续 发 展 
成 强 有 力 的 实验 方法 ， 称 为 DNA 印迹 法 (Southern blotting) . 

1977 年 有 人 把 DNA 印迹 法 推广 到 不 如 DNA. 稳定 的 RNA ， 称 为 
RNA 印迹 法 (Northern blotting) .后 来 又 推广 到 蛋白 质 ， 称 为 E AREN 
迹 法 (Western blotting}. Northern 和 Western 都 不 是 人 的 名 字 、 

用 聚 丙烯 酰胺 凝 胶 电 瀛 技术 ， 每 次 可 分 辨 几 十 种 蛋 犁 质 . 为 了 提高 
分 辨 率 ， 1975 RELY — AER PLEBCICARE RE Bik QD-PAGE) . — 5 
白质 出 于 含有 各 种 带电 基 团 ,在 溶液 中 表现 出 电荷 . E E IRAE (pH 
值 ) Fp, ix pH 值 称 为 该 蛋白 质 的 等 电 点 (isoelectrice point , (Bj 
称 Ip) 。 先 把 蛋白 质 混合 物 在 恒定 的 pH HIE TEKKER, Tl E A 
质 按 等 电 点 分 布 到 一 条 线 上 , 再 在 垂直 方向 用 老 办 法 做 由 洒 , 把 等 电 点 相 
同 的 发 白质 按 分 子 旺 分 开 ， 得 到 分 布 在 二 维 平面 中 揭 寿 点 。 这 样 一 次 实 
验 ， 可 以 分 辨 上 上 千 种 人 蛋白质。 国际 互联 网 上 有 大 量 二 维 挛 胶 电 洒 的 文字 
数据 和 斑点 图 象 ， 帮 助 实验 工作 者 辨认 蛋 委 质 ， 请 参看 SWISS-2DPAGE 
[R-419] 等 数据 库 和 Flicker [R-775] 等 网 上 服务 . 


3.6.5 DNA 测序 方法 


可 以 党 不 夸张 地 说 ， 生 物 信息 学 的 迅速 进步 ， 受到 DNA Fi ADIRE x 
术 的 猛烈 推动 . 从 原理 看 ， 有 了 两 种 测序 方法 . 一 是 令 聚 合 过 程 停 小 在 特定 
的 字母 (KK) 上 ， 二 是 把 聚合 到 一 定 长 度 的 DNA AREF ERR “e 
Wi. 

终止 聚合 过 程 的 双 陪 氧 法 ， 即 Sanger 方法 ， 利 用 3.4.3 小 节 中 讲 过 
的 双 脱 氧 的 ddNTP ， 使 聚合 过 程 停 止 在 一 定 的 字母 上 ， 因 此 至 少 要 用 四 
组 测序 反应 来 测定 不 同 的 碱 基 。. 

化 学 降解 法 ， 或 称 Maxam-Gilbert 法 ， 利 用 一 些 针对 DNA 长 链 上 
具体 核 霸 酸 的 特异 性 反应 ， 例 如 pH 值 8.0 的 二 甲 基 硫 (dimethvl sulfate) 
专门 使 链 中 的 鸟 苷 酸 甲 革 化 。 再 用 90°C 的 热 哌 (piperidine) 处 理 ， 即 
可 在 已 甲 基 化 的 G 处 切断 . 

两 种 方法 成 功 实 施 后 ， 都 得 到 长 短 不 等 的 DNA 片段 的 混合 物 ， 要 进 
一 步 分 离 . 假定 每 个 被 测 DNA 片段 长 500 REX, WERK 1/500 的 分 辩 
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SE, 这 大 致 是 目前 能 保证 做 到 的 精度 . 因此， 任何 长 DNA 链 都 必须 分 割 
成 大 量 有 一 定 重合 的 小 片段 ， 克 隆 增殖 ， 再 进行 测序 ， 然后 担 把 测序 结果 
拼接 起 来 。 这 时 涉及 的 算法 和 程序 ， 本 书 第 5 章 会 提 到 一 些 . 

以 上 两 种 测序 方法 都 有 克隆 、 标 记 、 分 离 、 显 示 等 许多 技术 纲 节 ， 这 
里 一 概略 去 。 L. Alphey 的 小 书 [R-15] 是 一 本 简明 的 参考 。 TEATE 
为 贺 灯 主编 的 [R-286] 一 - 书 撰写 的 第 5 章 ， 是 大 规模 测序 的 经 验 之 谈 ， 值 
得 一 读 . 

上 述 两 种 测序 方法 都 是 在 20 世纪 70 年 代 中 期 发 展 起 来 的 ， 原 始 文 
章 发 表 在 同一 卷 杂志 上 : 

R-116 A. M. Maxam, and W. Gilbert, Proc. Natl Acad. Sci. USA TA 

(1977), 560 ~ 569. 

R-117 F. Sanger, S. Nickelen, and A. R. Coulson, Proc. Nati Acad. Sci. 

USA 74 (1977), 5463 - 5467. 

F. Sanger 和 W. Gilbert 两 人 分 享 了 1980 年 的 半 个 诺 贝 尔 化 学 奖 . 

直到 不 久之 前 , 基因 绀 大 规模 测序 的 基本 策略 还 是 先 完成 遗传 图 谱 、 
物理 图 谱 等 基础 工作 ,再 把 按 一 定 密度 确定 了 遗传 标记 的 DNA Dm, 
用 YAC, cosmid 和 BAC 等 载体 逐步 增殖 .然后 以 不 同 BAC 为 对 象 ， 
逐个 测定 其 两 端 序列 、 确 定 BAC 之 间 的 覆盖 连接 关系 ， 再 把 每 个 BAC 
打 碎 测序 并 进行 拼接 。 这样 数 ， 可 以 部 分 地 回避 重复 序列 所 导致 的 组 装 
困难 ， 而 且 便于 许多 单位 分 工 合作 、 平 行 作业 . 人 类 基因 组 计划 就 是 按 此 

“分 而 治之 ”的 策略 实行 .关于 BAC 的 情况 ， 可 参看 LM.A.G.E[R-314] 
和 ATCC [R-315] 的 网 页 . TAA, J. C. Venter 等 人 建议 了 另 一 种 策略 : 
把 长 DNA 随机 地 打 碎 、 用 BAC 增殖 并 直接 测序 ， 大 量 测序 后 再 用 计算 
机 进行 拼接 组 装 ， 参 见 ， 
R-118 J. C. Venter, H. O. Smith, and L. Hood, *A new strategy for genome 
sequencing", Nature 381 (1996) 364 — 366. 
R-119 并 请 参看 随即 发 表 的 评论 ， 
P. Little, "Genomic analysis", Nature 382 (1996) 408. 


Venter 等 建议 中 提 到 其 方法 可 以 避免 YAC 克隆 的 不 稳定 性 , 而 Little 
指出 ， BAC 克隆 的 适用 性 并 未 证 明 . 
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自从 1995 ELAR, jx p WR” CARDA T VT PR ELSE DP ZH 
的 测定 ， 最 近 更 用 以 完成 了 果 蝇 基因 组 中 常 染 色 质 部 分 的 基本 测定 ， 但 
[R-369] 的 作者 们 承认 接近 着 丝 粒 和 端 粒 的 DNA 极 难 用 BAC 克隆 ， 真 
核 生物 基因 组 测序 可 能 永远 不 “完全 ”. 不 过 ， 以 Venter 为 首 的 Celera 
[R-798] 公司 ， 坚 持 零 弹 法 可 用 于 人 类 基因 组 的 测定 ， 正 在 同 国际 人 类 基 
因 组 计划 竞争 . 


83.7 ”进一步 阅读 书籍 


本 章 的 简短 叙述 ， 不 可 能 覆盖 生物 学 的 全 摇 。 下面 列举 一 些 生物 化 
学 和 分 子 生 物 学 的 参考 书 ， 主 要 是 大 学 和 研究 生 教材 . 由 于 整个 领域 发 展 
甚 快 ， 请 一 定 寻求 最 新 版 本 . 

及 -120 J. D. Watson, N. H. Hopkins, J. W. Roberts, J. A. Steitz, and A. M. 
Weiner, Molecular Biology of the Gene, 4th ed. , 1987. 

R-121 J. D. Watson, M. Gilman, J. Witkowski, and M. Zoller, Recombinant 
DNA, Scientific American Books, distributed by W. H. Freeman, 2nd 
ed. 1992, xiv 十 626. 

R-122 B. Alberts, D. Bray, J. Lewis, M. Raff, K. Roberts, and J. D. Watson, 
Molecular Biology of the Cell, 3rd ed. 1995, xliii 4- 1361. 

R-123 B. Lewin, Gene VI, Cambridge University Press, 1997. 

R-124 朱玉 贤 、 李 长 ，《 现 代 分 子 生 物 学 》， 高 等 教育 出 版 社 ， 1997 、 
1998 , 

R-125 B. Alberts, D. Bray, A. Johnson, J. Lewis, M. Raff, K. Roberts, and 
P. Walter, Essential Cell Molecular Biology: An Introduction to the 
Molecular Biology of the Cell, Garland Publishing Co. 1998. xxii 十 
740. 


对 于 从 数理 科学 转 而 关心 生物 信息 学 的 读者 ， 我 们 再 开 列 几 本 较为 
通俗 的 书籍 . 

R-126 Erwin Schrodinger, What is Life? The Physical Aspect of the Living 

Celi, 1944, 1945, 1948, 1951, 1955, 1962, and Mind and Matter, 1958, 

1959, Combined 1967, 1969, 1974, 1977, 1979, 1980, 1983, 1985, 1986, 


60 $&3*x im 3t 


Cambridge University Press. 

R-127 M. V. Volkenstein. Physics and Biology, Academic Press, 1982, viii 
+ 165. 

R-128 Freeman Dyson, Origin of Life, Cambridge University Press, 1985. 

R-129 Michael P. Murphy, and Luke A. J. O'Neill, eds. What is Life? The 
Nezt Fifty Years, Cambridge University Press, 1995, 1997. 

R-130 部 柏林 、 刘 寄 星 主编 ，《 理 论 物理 和 生命 科学 》， 上 海 科学 技术 出 
版 社 、 1997. 1999 . 
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数据 闫 是 一 切 生 物 信 和 息 学 工作 的 出 发 点 。 大 量 数 据 库 集中 存 一 些 国 
际 或 国家 的 生物 信息 中 心 . 这 些 中 心 一 般 还 提供 数据 库 检索 服务 、 检 索 T 
有 具 和 各 种 免费 软件 ， 因 此 ， 杯 章 84.1 节 分 别 介 绍 一 批 较为 重要 的 同 卫 :和 
国内 的 生物 信息 中 心 和 网 点 . 由 于 历史 原因 , 许多 数据 库 或 软件 使 用 某 种 
特定 的 数据 格式 .。 用 户 至 少 应 当 钴 道 这 些 烙 式 的 各 字 和 实现 格式 转换 的 
一 些 工 具 。 因 此 ， 842 节 将 讨论 常见 的 核酸 和 蛋白质 序列 格式 ， 在 列举 
一 批 重 要 生物 数据 库 之 前 ， 还 要 介绍 儿 种 数据 库 检 索 工 具 . 这 是 84.3 节 
的 内 容 . 

我 们 在 本 书 “前言 ”中 已 经 指出 ， 这 时 要 再 次 强调 ， 同 际 生物 信息 
资源 和 数据 库 的 免费 自 册 使用， 是 以 从 事 非 营利 的 教育 和 科学 研究 为 前 
提 的 . 如 果 有 个 别人 不 与 原始 数据 拥有 者 协商 而 利用 学 术 性 的 免费 数据 
库 从 事 商业 活动 ， 就 可 能 在 将 来 妨碍 我 国 整个 教育 和 科学 界 使 用 这 些 资 
UB. 这 一 点 要 提请 读者 特别 注意 . 


84.1 重要 生物 信息 中 心 简介 


以 下 分 同 外 和 国内 两 部 分 介绍 。 MR EE”, KREA. 有 有 
些 学 校 或 研究 所 的 网 页 包含 基 方 面 的 有 益 信息 ， 也 就 同 真正 的 “中 心 ” 一 
样 列 入 名 单 ， 在 这 样 的 前 所 下 ， 足 漏 和 偶然 入 选 都 在 所 难免 . 


4.1.1 国外 生物 信息 中 心 


最 重要 的 几 个 国际 性 中 心 排 在 前 面 , 以 后 基本 上 技 国 家 或 地 区 分 组。 
R-131 也 BI ,欧洲 生物 信息 学 :研究 所 (European Bioinformatics Institute) , 
1994 年 建立 于 英国 剑桥 . 它 的 前 身 是 位 于 德国 海德 堡 的 欧洲 分 了 生 
物 学 实验 室 [及 -133j 的 信息 服务 部 门 。 EBI 接受 了 原来 EMBL 数据 
库 的 管理 和 维护 ， 并 且 是 欧洲 分 子 牛 物 学 网 (EMBnet) [R 132] 的 一 
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个 特别 节点 。 EBI 开展 了 多方 面 的 生物 信息 服务 和 研究 。 网址 : 
http://www.ebi.ac.uk/ (EBI 主 和 网 页 ， 可 链接 到 其 他 项 目 ) 
http://www2.ebi.ac.uk/ (各 种 数据 库 和 分 析 工 具 ) 
http://www3.ebi.ac.uk/ (EBI 的 公众 服务 网 页 ) 
ftp://ftp.ebi.ac.uk 

gopher://gopher.ebi.ac.uk 

R-132 EMBnet ， 欧 洲 分 子 生物 学 信息 网 ， 建 立 于 1988 年 。 作 为 一 个 图 

际 组 织 ， 它 在 荷兰 注册 .网址 : 
http://www .embnet .org/ 
从 1996 年 开始 ，EMBanet 把 成 员 国 范围 扩大 到 欧洲 以 外 ， 中 国 在 同 
EMA. EMBnet 的 中 国 节点 设 在 北京 大 学 生物 信息 中 心 PKUCBI 
[R-166]. 目前，EMBnet 有 29 个 成 员 国 (每 国 一 个 节点 ) 和 10 个 
特别 节点 。 表 4.1 列举 EMBnet 部 分 节点 的 网 址 和 所 在 单位 . 

R-133 EMBL , 欧洲 分 子 生 物 学 实验 室 (European Molecular Biology Lab- 
oratory), ， 其 主 实验 室 设 在 德国 海德 堡 . 除了 实验 研究 ， 它 还 提供 多 
种 生物 计算 和 数据 库 服 务 ， 以 及 序列 分 析 方 面 的 服务 . 详情 请 参看 网 
HE: 
http://www.embl-heidelberg.de/Services 
http://www.embl-heidelberg.de/^seqanal 
EMBL 还 在 德国 汉堡 ,法国 Grenoble 、 英国 Hinxton (BP EBI [R -131]) 
和 意大利 Monterofredo 设 有 分 部 ， 请 参看 了 网址: 
http://www.embl-hamberg.de/ 
http://www.embl-grenoble.fr/ 

R-134 NCBI ， 美 国 国家 生物 技术 信息 中 心 (National Center for Biotech- 
nology Information) . 网址 : 
http://ncbi.nlm.nih.gov/ 

c B) Bj 5r RE SE FREE. DIY (National Institute of Health ,简称 NIH} 
所 属 的 一 个 研究 所 的 计算 生物 学 研究 室 ，1988 年 独立 为 NCBI, 形式 
上 局 于 国家 医学 图 书馆 (National Library of Medicine , 简称 NLM) . 

NCBI 管理 着 包括 GenBank( 详 见 [R-212]) 在 内 的 一 批 数 据 库 ， 如 
UniGene [R-308] 、 dbSNP [R-310] 、 COG [R-496] 、 LocusLink 
[R-202] 、 OMIM [R- 335] 和 MMDB [R-463] 等 . 121& flt. Entrez(iY: 
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X 4.1 EMBnet 成 员 单 位 和 网 址 


LLLI. URL — 单位 

阿根廷 IBBM sol.biol.unlp.edu.ar 生化 和 分 子 生 物 学 儿 究 所 
奥地利 YUCC wuy.at.embnet.org 维也纳 大 学 计算 中 心 

澳大利亚 ANGIS www.au.embnet.org 国家 基因 信息 系统 

M&A CBR-RBCN wuw,cbr.nrc.ca E 3x $4 WI e Ng E E A A P 
比利时 BEN www.be.embnet.org 

中 国 CBI www.cn.embnet.org 北京 大 学 生物 信息 中 心 (R- 166] 
f E CIGB wwv.cu.embnet.org 基因 工程 与 生物 技术 中 心 

Ht € BioBase wew ,dk .embnet .org B Ed ER 

法 国 www.fr.embnet.org INFOBIOGEN 中 心 [R-148] 
芬兰 CSC vew.fi.embnet.org 国家 科学 计算 中 心 

WE GeniusNet ^ www.de.embnet.org ib IE MERE DES hoc 

$9 IMBB www.imbb.forth.gr 分 子 生 物 学 与 生物 技术 研究 所 
匈牙利 HEN wwg.hu,embnet.org 

印度 CDFD www.in.embnet.org DNA 指 绞 和 预测 中 心 

爱尔兰 INCBI wwu.ie.embnet.org 国家 生物 信息 中 心 

以 色 列 INN www.il.embnet.org 我 茨 晶 科学 研究 所 (R-164] 
意大利 CNR www.it.embnet.org Bari 研究 园区 

mu Bio vuv.no.embnet.org E Wi Is; E s eR pons 

波兰 IBB www.pl.embnet.org 生物 化 学 与 生物 物理 妍 究 所 

3 S7 PEN www.pt.embnet.org 

IRE GeneBee vwv.ru.embnet.org 莫斯科 大 学 生物 物化 研究 所 
MARE vwu.sk.embnet.org 科学 院 分 子 生 物 学 研究 上 所 

南非 SANBI www.za.embnet.org 国家 生物 信息 研究 所 [R- 154] 
TIHE F CNB www.es.embnet.org 国家 生物 技术 中 心 

瑞典 LCB www.se.embnet.org 林 订 生物 信息 中 心 IR-144] 
At SIB Wwu.ch,embnet .org 编 十 生物 信息 研究 所 [R-131] 
荷兰 CMBI www.nl.embnet.org 分 子 和 生物 分 子 信息 中 心 [R -147] 
土耳其 RIGEB wwe.tr.embnet.org Tubitak-Marmara 研究 中 心 : 
英国 HGMP wuw.uk.embnet.org A KE RPG UE rSn [R-140] 
EBI www. ebi.ac.uk 欧洲 生物 信息 研究 所 [R- 131] 
ETI www.eti.uva.nl 分 类 学 专家 鉴定 中 心 [R-608] 
ICGEB [R--152] ^ www.icgeb.trieste.it 国际 遗 转 工程 与 后 物 技术 中 心 
UMBER wwe. bioinf.man.ac.uk Lib IP 

MIPS (R- 139] wvw.mips.biochem.mpg.de 马 普 学 会 生物 化 学 赋 究 所 
Pharmacia www.pnu.com Pharmacia & Upjohn 

Roche www. roche. com F. Hoffmann - La Roche d 
Sanger 中 心 wwy.sanger.ac.uk Sanger 中 心 (R-299] 
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At [R-199]) 数据 库 检 索 工 具 、 BLAST(iÉ W (R-631])) 数据 库 序 列 搜 
索 等 服务 。 关 于 NCBI 数据 库 积 软件 资源 的 最 近 描 述 可 参看 : 
D. L. Wheeler 等 8 位 作者 、 Nucleic Acids Res. 28 (2000) 10 - 14. 

R-135 NCGR ， 美 国 困 家 基因 组 资源 中 心 (National Center for Genome 
Resources) 。 此 中 心 名 称 中 虽 有 “ 周 家 ”字样 ， 实 际 上 是 -~ 个 韭 党 利 
的 非 政 府 机 构 , 主要 由 国家 科学 基金 会 (NSF) 、 美国 农业 部 和 卡 内 基 
研究 会 等 公私 单位 支持 。 NCGR 的 重要 项 目 包 括 疫 局 局 基因 预 研究 
计划 PGI[R-357] 、 拟 南 芥 信息 资源 TAIR IR-395] 、GSDB [R 214] 
数据 库 、 ISYS [R-855] 集成 软件 界面 等 。 网址 : 
http://www.ncgr.org/ 
http://seqsim.ucgr.org/ 
它 设 有 专门 的 服务 器 , 运行 BLAST [R-631] , Smith - Waterinau [R 
623] 等 算法 程序 ， 学 术 界 可 自由 提交 序列 进行 数据 库 搜 索 积 刁 扰 ， 

R-136 HHMI 是 Howard Hughes 医学 研究 所 的 简称 。 这 是 一 个 基本 上 浅 
有 自己 的 实验 室 的 特殊 机 构 。 它 为 杰出 的 生物 医学 工作 者 提供 定期 
的 高 强度 资助 ， 促 进 其 千本 单位 的 研究 。 MMHI 主要 支持 细胞 生物 
学 、 遗 传 学、 免疫 学 、 神 经 科学 和 结构 生物 学 五 个 领域 的 证 究 ， 昌 前 
有 300 多 位 成 员 ， 它 虽然 不 是 一 个 信 生 中心， 但 通过 它 的 网 页 可 以 
进入 一 批 最 话 跃 的 学 者 的 网 址 ， 迅 速 了 解 前 沿 研究 情况 . 网 让 : 
http://www.hhmi.org/ 

R-137 NIG, 日 本 国立 遗传 学 研究 所 (National Institute of Genetics), 8E 
护 和 管理 着 日 本 DNA 数据 库 DDBJ, EW [R-213], E fii EL WR 25 96 
于 1984 年 ， 1987 3:7 M 1 HX; DDBJ 3$ —A&.. kitl: 
http://www.ddbj.nig.ac.jp / 

R-138 JIPID , 日 本 国际 和 蛋白质 信息 数据 :六 (Japan International Protein 
Information Database) ， 是 PIR [R- 404] 库 的 三 个 协作 单位 之 一 。 

R-139 MIPS ，、， 幕 尼 黑 重 向 质 序 列 信 息 中 心 (Munich Information Center 
for Protein Sequences) 、 问 时 也 是 德国 环境 与 健康 研究 中 心 {GSF) 、 
以 及 国际 蛋白 质 信 息 资 源 PIR [R- 404] 三 个 协作 单位 之 一 . ERE 
普 学 会 的 生物 化 党 研究 上 所， 网 址 ; 
http://www.mips.biochem.mpg.de/ 
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R-140 HGMP , x[s| Bx 5r f 5728 51 £c (Medical Research Council) 所 属 人 
类 基因 组 图 谱 资 源 中 心 (Human Genome Mapping Project Resource 
Center), MH EMBnet 英国 国家 节点 . 它 所 维护 的 GenomeWeb [R- 
614 是 内 容 最 丰富 、 更 新 最 及 时 的 网 上 生物 信息 目录 之 --。 网址 : 
http://www.hgmp.mrc.ac.uk/ 

R-141 SIB ， 瑞 十 生物 信息 研究 所 (Swiss Institute of Bioinformatics) , 
EMBnet 的 瑞 上 节点 。 网 址 : 
http://www.isb-sib.ch/ 

这 是 以 SWISS-PROT /R-401], TrEMBL [R-402] 、 PROSITE (R- 

406), ENZYME [R-415]. SWISS-2DPAGE [R-419]. CD40LBASE 
[R-522]. SWISS-3DIMAGE [R-488] 等 各 种 与 蛋白 质 有 关 的 数据 库 
著称 的 信息 中 心 。 1993 EHA A HAF E HHA B Bio i A R FI 
质 为 重点 的 ExPASy (Expert Protein Analysis System) 4 F "9 Hk 
务 器 ， 现 在 是 SIB B) SE FURZICT. (proteomics) 服务 器 . 

R-142 ExPASy 服务 器 的 网 址 值得 单独 列 出 ， 
http://www.expasy.ch/ 
ftp://ftp.expasy.ch 
ExPASy 服务 器 的 中 国 镜 象 点 设 杰 北京 大 学 生物 信息 中 心 ， 叮 通过 后 
省 的 网 页 {[R--166] 进入 ， 或 直接 访问 ， 
http://expasy.pku.edu.cn/ 

R-143 ISREC , fi - 3c S d AE NAP (Swiss Institute for Experimental 
Cancer Research) 的 生物 信息 组 , 是 SIB [R-141] 的 成 员 . 它 的 特色 是 
T RE (6) E ELI Profile 计划 , 即 对 PROSITE [R-406] 的 扩充 和 Prosite- 
Scan [R--407] 服务 器 .网 址 : 
http://www.isrec.isb-sib.ch/index.html 

R-144 BMC, WA Uppsala 生物 医学 中 心 。 网 址 ， 
http://www.bmc.uu.se/ 

所 属 的 林 奈 生物 信息 学 中 心 (Linnaeus Center for Bioinformatics) 是 
EMBnet [R-132] 瑞典 节点 所 在 地 : 
http://www.linaeus.bmc.uu.se/ 

R-145 WA REHM EE (Karolinska Institute ， 简 称 KI, HD 615 j£ 
选 诺 贝尔 生理 学 或 医学 奖 的 那个 单位 ) 和 卡车 琳 斯 失 锋 院 (Karolinska 
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Hospital) ， 在 1997 年 建立 了 基因 组 研究 中 心 (Center for Genomics 
Research ， 简 称 CGR). 它 的 生物 信息 组 是 KISAC(Karolinska Insti- 
tute Sequence And Computer), KISAC 除了 为 KI 和 全 瑞典 的 生物 医 
学 研究 服务 ， 还 维护 着 HGBASE [R-312] 数据 库 和 Belvu [R--662] . 
Dotter [R-749] 、 Blixem [R-647] 、 MSPcrunch [R-648] 等 生物 计算 
程序 ， 网 址 : 
http://www.cgi.ki.se/ 

R-146 BioBase ， 和 丹麦 生物 技术 信息 中 心 。 网 直 : 
http://biobase.dk 
此 网 页 包含 丹麦 人 类 基因 组 研究 中 心 的 入 口 ， 这 里 有 多 种 蛋白 质 二 
维 凝 胶 图 象 数 据 ， 网 址 : 
http://biobase.dk/cgi-bin/celis/ 

R-147 CMBI, 荷兰 分 子 和 分 子 生 物 学 信息 中 心 (Centre for Molecular and 
Biomolecular Information) 。 了 网 址 : 
http://www.cmbi.kun.nl/ 
它 从 1999 年 11 AERE T IUE I CAOS/CAMM 信息 服务 . 

R-148 INFOBIOGEN ， 这 是 法 国 国民 教 育 、 研 究 和 技术 部 于 1999 年 6 
月 在 原 INFOBIOGEN( 建 于 1995 年 ) 基础 上 成 立 的 法 国 国 家 生物 信 
息 中 心 , 也 是 EMBnet [R-132] 法 国 节 点 所 在 地 . 它 的 网 页 是 法 文 的 . 
网 址 : 
http://www.infobiogen.fr/ 
它 所 提供 的 生物 数据 库 总 目录 DBeat (R-207] 很 值得 参考 ; 
bttp://wwws.infobiogen.fr/services/dbcat/GEN/ 
为 了 解法 国 的 情况 ， 还 可 以 参看 巴 斯 德 (Pasteur) 研究 所 [R-149] 和 

里 昂 大 学 生物 信息 中 心 [RR-150) 的 英文 网 页 

R-149 巴 斯 德 研究 所 的 网 页 有 相当 丰富 的 内 容 和 通 向 许多 重要 数据 库 的 链 
E. 网址; 
http://www.pasteur.fr/ 
"E A ER AY P TE BS n LER CUTE JOE PX AE [R-176] . 

R-150 PBIL, ， 里 昂 生 物 信 息 中 心 (Pole Bio-Informatque Lyonnais). 由 法 
国 里 郧 大 学 生物 计量 与 演化 实验 室 和 和 恒 白 质 生 物 学 与 化 学 研究 所 在 
1998 年 联合 建立 . 这 里 维护 着 一 批 与 细 苗 有 关 的 数据 库 ， 如 EMGLib 
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[R-345] 、 NRSub |[R-350] 、 HOBACGEN [R-421] 等 。 网址: 
http://pbil.univ-lyoní.fr/ 
PBIL 的 特点 在 于 分 子 生物 学 与 生态 学 结合 . 

R-151 LGT ， 俄 国 理论 遗传 学 实验 室 . 颖 国 新 西伯 利 亚 细 胞 和 遗传 学 研 
究 折 与 新 西伯 利 亚 大 学 联合 设立 的 这 个 实验 室 ， 以 基 男 调控 区 的 研 
究 为 特色 。 在 俄国 基础 研究 基金 和 人 类 基因 组 计划 支持 下 ， 和 他 们 建 
立 了 一 个 名 为 GeneExpress [R-720] 的 集成 系统 ， 其 中 包括 TRRD 
[R-221], SELEX.DB [R-241], ACTIVITY [R-279] 等 一 批 数 据 库 
和 若干 检索 、 显 示 工 具 。 网 址 ， 
bttp://srs5.bíonet.nsu.ru/ 

R-152 ICGEB ， 国 际 遗 传 工程 与 生物 技术 中 心 (International Centre for 
Genetic Engineering and Biotechnology) ， 由 联合 国 工 业 与 发 展 组 织 
ERE, BWE 43 个 成 员 国 。 中 国 是 正式 成 员 国 ， 联 系 人 为 科技 
部 所 篇 中 国生 物 技术 发 展 中 心 的 赵 爱 民 : 

E-mail: zhaoaim@pubiic.east.cn.net 

ICGEB 有 两 个 园区 . 意大利 的 里 亚 斯 特 园区 ， 网 址 : 
http://icgeb.trieste.it/ 

他 们 还 维护 着 SBASE 数据 库 ， 详 见 [R-473] . 
印度 新 德里 园区 ， 浆 址 ， 

http://icgeb.res.in/ 

R-153 APBionet ， 亚 太 生 物 信 息 网 ， 目 前 仍 在 筹建 中 ， 网址 : 
http://www.apbionet.org/ 

其 中 国 节点 在 北京 大 学 生物 信息 中 心 [R-166] . 

R-154 SANBI ， 南 非 国家 生物 信息 研究 所 (South African National Bioin- 
formatics Ínstitute) ， 成 立 于 1996 年 。 网 址 : 
http://ziggy.sanbi.ac.za/services/ 

R-155 BIMAS, 美国 国家 卫生 署 NIH [R-134j 所 属 的 信息 技术 中 心 (CIT) 
下 面 的 生物 信息 学 和 分 子 分 析 部 (Bioinformatics and Molecular Anal- 
ysis Section) ,这 里 有 一 批 可 以 在 其 网 页 土 运行 的 程序 ， 如 启动 子 扫 
描 程 序 Promoter Scan [R-727] . SignalScan (R-728] 、 序 列 格式 变 
换 程 序 ReadSeq[R-699] ， 以 及 白细胞 HLA 肘 链 结合 位 点 预测 程序 
[R-747) 等 ， 网 址 : 
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http://bimas.dcrt.nih.gov/molbio/ 

R-156 TIGR ， 美 六 基因 组 研究 所 (The Institute for Genome Research) , 
是 一 个 斐 营利 性 的 基 取 如 研究 机 松 ， 研 究 众 病毒、 细菌 到 大 类 的 基 
因 组 以 及 基因 产物 的 结构 、 功 能 和 比较 . 网址; 
http://www.tigr.org/ 

它 维护 着 TIGR X BI ES E TDB [R-215) , ARA Bl £i X t EST 
序列 . 参看: 
http://www.tigr.org/tdb/ 

R.157 WI, Whitehead 生物 医学 研究 所 (Whitehead Institute for Biomed- 
ical Research , (fk WI), 是 1982 £g ie f —-T- AE ERU RS. Yir fy 
础 研究 和 教 党 机 构 。 它 在 肿瘤 和 艾滋 病 、 发 育 生 物 学 、 结 构 生 物 学 、 
传染 病 和 遗传 学 等 方面 侍 开 创 性 的 妍 究 更 上 且 。 网 址 : 
http://www.wi.mit.edu/ 

R-158 WICGR , k WI AFFEN- RR 28 FB T. 7 Bx Hc E E rz ng SEDI ZILUESC 
中 心 (WE/MIT Center for Genome Research). € Æ APR 上 重要 的 其 
因 组 测序 中 心 之 一 . 它 维护 着 自己 的 人 类 SNP WIRE. KRR I 
父 图 谱 数 撕 岸 等 。 网 址 : 
http://www-genome.wi.mit.edu/ 
关于 WICGR 在 人 类 基因 组 测序 方面 的 进展 ， 请 看 : 
http://www-seq.wi.mit.edu/ 

R-159 CSHLIL ， 关 国 冷 泉 港 实验 室 (Cold Spring Habor Laboratory) 。 这 
4-9? & SE DA WE DULCE IE (8 A J. D. Watson 为 主任 的 研究 所 ， 是 分 于 
生物 学 的 国际 领先 单位 之 --。 网 址 : 
http://clio.cshl.org/ 
ftp://ftp.cshl.org/ 

它 的 不 断 更 新 的 网 页 在 关于 会 议 的 报道 和 教学 内 容 ， 宜 经 党 访问 : 
http://nucleus.cshl.org/meetings/ 

CSHL A 1933 年 开始 凤 版 的 《冷泉 港 定量 生物 学 讨论 会 》 文 集 (Cold 
Spring Harbor Symposia on Quantitative Biology) , fg $E-— 35, 除 1943 
- 1945 M, JAM, VEA S UESTRE S ERU Cio (F 
LES £l pa 
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R-160 CompBio ， 美 局 节约 朝 大 学 的 计算 生物 学 组 .网 址 : 
http://www.cs.jhu.edu/labs/compbio/ 
此 网 页 有 通 洒 许多 重要 数据 库 的 链接 和 多 种 识别 基因 的 软件 ， 例 如 
Glimmer [R-716] . 

R-161 IUBio , X [NEI 35 c Bb A 55 4:39 RES emos. ED EVITE E 
"i B94:39 ir EE SX PE PESE [R-611] .. RB Eri PE FlyBase [R 371], & 
核 生 物 基 因 信 息 库 euGenes [R 340) F d 9E VER. Kp hb: 
http://sunflower.bio.indiana.edu/ 

R-162 SMI, JX: [s re Bi Xr suy (Stanford Medical Informatics) 
SUE SEI) Helix 生物 信息 学 组 的 网 页 台 一 些 软件 撒 述 、 出 版 物 电 子 版 
和 太平洋 生 物 计 算 研 计 会 [R -825] 的 电子 文集 。 网 址 : 
http://www-smi.stanford.edu/projects/helix/ 

R-163 BNL, Xp f vg xm x3: 3: (Brookhaven National Labora- 
tory) W JE E FLUR EHI EC US E PDB [R-441]) HELEH A. PDB 
库 父 给 RCSB (R-442] 管理 以 后 ， 这 时 还 有 大 量 的 生物 研究 信息 .网 
hl: 
http://genomel.bio.bnl.gov/ 

R-164 EA € 5) $8 Zz E ELS: MI 9E PIE. (Weizmann Institute of Science) 是 - -个 
从 事 研 究 并 培养 研究 生 的 机 构 。 它 设 有 车 干 系 、 其 和 研究 中 心 。 例 
如 ， 生 物 系 的 分 子 遗 传 学 研究 中 心 (The Leo and Julia. Forchheimer 
Center for Molecular Genetics) 参与 国际 人 类 基因 组 计划 。 pep b: 
http://www.weizmann.ac.il/ 
BE XE 59 FLA A A PESO ^E 39 fà ELSE F9] UC ta eT — Rl: 
http://bioinformatics.weizmann.ac.il/ 

R-165 CBS ， 及 凌 技术 大 学 生物 序列 分 析 中 心 (Center for Biological Se- 
quence analysis) ， 它 维护 着 O-GlycBase [R- 485] 数据 库 和 Phospho- 
Base [R -431] XPH. 网 址 : 
http://www.cbs.dtu.dk/ 


4.1.2. 国内 的 生物 信息 网 点 


国内 生物 信息 学 证 作 起 步 较 晚 ， 目 前 北京 大 学 生物 信息 中 心 建立 的 
数据 库 和 服务 项 日 最 多 ， ARRE H, HEMRA EKR A 
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的 培训 活动 和 会 议 。 许 多 学 校 和 研究 单位 近 几 年 开始 章 创 生物 信息 研究 
和 服务 。 下 面 是 一 些 不 完全 的 概况 . 

R-166 CBI 或 PKUCBI, 北京 大 学 生物 信息 中 心 , 成 立 于 1997 年 3 月 ， 
它 是 EMBnet [R-132] APADA, EERE HEW APBionet 
[R-153] 的 中 国 节点 .他们 的 网 页 很 值得 访问 ， 
http://www.cbi.pku.edu.cn/ 

他 们 的 ftp 服务 器 可 以 通过 网页 访问 ， 也 可 用 ftp 命令 直 取 : 
ftp://ftp.cbí.pku.edu.cn/ 

北京 大 学 生物 信息 中 心 的 电子 邮件 联系 地 址 是 : 

mailto: officeQOcbi.pku.edu.cn 

从 PKUCBI 可 以 立即 进入 EMBnet f Xx PUR E 3S EHME 
的 镜 象 点 .。 EMBnet 上 有 200 多 种 可 以 自由 访问 的 数据 库 ， 北 京 大 
学 生物 信息 中 心目 前 已 经 建立 了 70 多 种 分 子 生物 信息 镜 象 系统 和 数 
据 库 ， 有 些 库 已 经 做 到 每 日 更 新 。 许 多 数据 库 都 可 以 通过 检索 工具 
SRS[R-203] 查询 . 

R-167 PKUBIOS 服务 器 (Peking University Bioinformatics Server) , i& 
在 北京 大 堂 化 学 系 物理 化 学 研究 所 . 可 从 物化 所 的 网 址 进入 : 
http://www.ipc.pku.edu.cn/mirror/mirror.html/ 

这 里 有 PDB [R-441], SCOP (R-454] 58 55 E HAH XU HE DO 
象 ， 但 更 新 速度 不 及 PKUCBI [R-166] , 

R-168 AMMSnic 是 中 国 军事 医学 科学 院 情 报 研究 所 网 络 信息 中 心 的 英 
文 缩写 。 这 里 有 通 向 许多 国际 生物 信息 数据 库 和 生物 医学 资源 系统 
的 链接 ,其 中 一 部 分 在 我 国 已 有 镜 象 点 ， 可 参看 [R-166] 、[R-167]、 
(R-170]. [R-169] 等 . 这 里 有 一 批 医学 、 药 学 数据 库 和 辐 外 军事 锋 
学 研究 单位 的 URL 、 本 手册 未 提 及 . 网 址 : 
http://www.bmi.ac.cn/bio/ 

R-169 CMBI/BJMU ， 北 京 大 学 医学 部 生物 信息 网 页 : 
http://cmbi.bjmu.edu.cn/ 
ax HUE S E CXCE LO F3 FAG f E kA PaE RS A E 9g Ea ox d$ 
科学 研究 所 的 GeneCards [R-418] 的 中 国 镜 象 点 在 此 ， 

R-170 中 国 科 学 院 微生物 研究 所 的 网 页 : 


http://www.im.ac.cn/ 
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这 里 有 一 个 靠 关 键 字 检索 的 日 本 DDBJ 数据 库 [R-213] 的 镜 象 点 , 但 
没有 DDBJ 库 的 其 他 检索 工具 和 服务 . 中 国 微生物 风 也 设 在 这 里 : 
http://micronet.im.ac.cn/ 

此 外 ， 筹 建 中 的 亚太 先进 网 {Asia Pacific Advanced Network 、 简 称 
APAN) 有 一 个 建立 生物 信息 镜 象 点 的 计划 . 其 中 国 节 点 设 在 微生物 
研究 所 . 网址; 

http://bio-mirror.cn.apan.net 

目前 该 网 页 上 只 有 通 向 几 个 主要 生物 信息 数据 库 的 链接 。 

R-171 中 国 科学 院 上 海 生 命 科学 研究 院 的 网 页 ， 有 通 向 各 研究 所 的 链接 . 
PA hE: 
http://www. sibs.ac.cn/ 

R-172 BioSino 是 中 国 科学 院 上 海 生 命 科 学 研究 院 生 物 信息 中 心 的 网 站 ， 
它 目 前 除 维护 我 国 的 核 稚 序列 公共 数据 库 [R-216] 外 , 还 提供 包括 各 
种 链接 的 生物 学 导航 信息 : 
http://www.biosino.org/ 

R-173 FRAR F Br 283 ^E Vo 405 ESTE Br R3 PCS E19 (8 BLA RE. 4 CIR 
向 国际 生物 数据 库 和 软件 服务 的 链接 . 网 址 ， 
http://dna.sibc.ac.cn/bio/ 

R-174 中 国 科学 院 遗 传 研究 所 人 类 基因 组 中 心 ， 是 我 国 节 担 的 国际 人 类 基 
网 组 计划 1% 测序 任务 的 主要 测序 中 心 。 网 址 : 
http://hgc.igtp.ac.cn/ 
http://www .genomics.org.cn/ 

R-175 中 国 科 学 院 国 家 基因 组 中 心 ， 成 立 于 1992 年 。 其 主要 任务 是 承担 
中 国 水 稻 基 因 组 计划 . 他 们 的 网 页 简要 介绍 计划 进展 情况 . ftp 服 
务 器 可 以 下 载 水 稳 基 因 组 物理 图 谱 数 据 . Wi hb. 
http://www.ncgr.ac.cn/ 
ftp://ftp.ncgr.ac.cn 

R-176 广州 中 山大 学 生物 信息 中 心 ， 与 法 国 巴 斯 德 研究 所 [R- 149] & fF, 
于 1999 年 9 月 开通 了 “法 国 巴 斯 德 亚洲 信息 网 *"。 网址 : 
http://genome.zsu.edu.cn/ 

XE SR UG BESLETT Ys SRIUIB)BES R. inh r FRLET 
的 Subtilist 和 大 上 肠 杆 菌 和 的 Collibri 等 。 


72 第 4 章 hratt 


R-177 中 山 响 科大 学 的 网 页 有 到 PubMed(R-600] 的 链接 ， 实 际 检索 仍 在 
NCBI 进行 。 网 址 : 
http://www.gzsums.edu.cn/ 


ftp://ftp.gzsums.edu.cn 


84.2 数据库 和 序列 的 格式 


出 于 历史 原因 , 各 种 生物 数据 库 采 用 了 不 同 的 信息 格式 , 许多 生物 计 
算 软 件 也 要 求 特定 的 核酸 和 重 白 质 序列 输入 格式 .这 当然 是 不 方便 的 . 
因此 , 我 们 专门 在 本 节 介 绍 常见 的 数据 库 文件 和 生物 序列 格式 . 介绍 分 成 
三 部 分 : 数据 库 文件 格式 、 序 列 格 式 和 多 序 列 联 配 所 涉及 的 格式 . 前 两 者 
并 没有 明确 界限 , 许多 程序 都 会 从 数据 库 文 件 中 提取 序列 . 多 序列 格式 花 
样 较 多 ， 有 些 只 有 历史 意义 或 很 少 用 到 的 格式 ， 只 点 出 名 字 . 万 -- 直 到 ， 
可 以 临时 查询 . 

有 一 批 软件 专门 处 理 格式 之 间 的 转换 , 例如 D. Gibert 编写 的 免费 程 
序 ReadSeq (R-699] ， 可 以 处 理 18 种 格式 GCG [R-792] 程序 包 中 也 有 
刀 种 格式 转换 模块 ， 把 其 他 格式 变 成 它 所 要 求 的 GCG 格式 [R-.184] . 


4.2.1 数据库 格式 


多 数 生物 数据 库 由 文字 说 明和 序列 两 大 部 分 组 成 ， 两 者 都 有 间 定 格 
式 ， 以 便 计算 机 读 取 . 例如， GenBank 中 大 肠 杆 菌 全 基因 组 条 和 刁 ， 文 件 
总 长 接近 15 万 行 ， 其 中 注释 占 71 719 行 ， 序 列 占 77322 行 。 各 个 数据 
库 的 具体 格式 ， 又 有 所 不 同 ， 大 致 分 成 EMBL 和 GenBank 两 种 风格 . 


R-178 EMBL 格式 . 欧洲 分 子 生物 学 EMBL HEB IST BO 
纯 文 本 文件 . 每 一 行 最 前 面 是 由 两 个 大 写字 母 组 成 的 识别 标志 , 常见 
的 识别 标志 列举 在 表 4.2 中 . 识别 标志 “特性 表 ” FT 包含 一 批 关 键 
字 ， 它 们 的 定义 已 经 与 GenBank 和 DDBJ 统一 ， 在 文件 [R-210] 中 
有 详细 说 明 、 下 面 介绍 GenBank 格式 [R-179] 时 再 在 表 4.3 中 列举 
这 些 关键 字 . 
欧洲 国家 的 许多 数据 库 如 SWISS-PROT [R-401] 、 ENZYME 
[R-415] 、 TRANSFAC [R-219] 等 ， 都 采用 与 EMBL 一 致 的 格式 . 


EMBL 识 草 标志 GenBank 识别 字 


ID 
AC 
DE 
os 
OC 
DT 
KW 
RN 
RA 
RT 
RL 
RX 
DR 


XX 
CC 
N1 

FH 
FT 
SQ 


// 
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x 4.2 EMBL 和 GenBank 数据 库 的 行 识别 标志 


LOCUS 
ACCESSION 
DEFINITION 
SOURCE 
ORGANISM 


KEYWORDS 
REFERENCE 
AUTHORS 
TITLE 
JOURNAL 


COMMENTS 
MEDLINE 


COMMENT 
VERSION 

FEATURES 
FEATURES 


BASE COUNT 
ORIGIN 
// 


标识 字 罕 串 及 短 描述 字 
唯 … 的 提取 号 
简单 的 描述 
来 源 生物 笨 
及 其 分 类 谱系 
建立 已 期 
XRF 
引文 编号 
引文 作者 
JLH 
引文 出 处 
ZIM 
对 其 他 数据 库 的 引用 
引文 的 MEDLINE t} 
为 阅读 清晰 凋 用 的 空 行 
评注 
可 沉 新 的 序列 版 本 号 (AC AREE) 
特性 表 头 
特性 表 
EMBL Til tà, GAKR, ERU 
GenBank i t $r Ej 
GenBank FAH (GbR E, iip 
序列 结束 标志 ， 空 行 


R-179 GenBank 格式 . 每 个 条 目 是 一 份 纯 文 本 文件 , 每 行 左 疯 或 为 空格 或 
为 识别 字 . 识别 字 均 为 完整 英文 字 , THAS. 为 了 同 EMBL HH, 
—Jt»]:ik d 4.2 中 . 清 注 意 ， 从 1999 年 12 月 15 日 的 第 115 版 开始 ， 
GenBank 取消 了 Version 关键 字 下 的 版 本 号 NID 和 PID, ELA FEE 
表 中 /db.xref 对 它们 的 引用 ， 上 只 扣留 了 GIRAS RH /do xref 5 
用 . 一 个 GenBank 条 目 ， 从 LOCUS 行 到 ORIGIN 行 是 注释 部 分 ， 
注释 按 识别 字 分 成 若干 段 ， 从 FEATURES 开始 注释 的 核心 部 分 。 它 


使 用 一 大 批 与 EMBL 和 DDBJ 数据 库 统 一 的 关键 字 ， 表 4.3 中 列举 


了 若干 重要 的 关键 字 . 


Bax 生物 管 息 数 据 库 


X* 4.3 GenBank 注释 中 的 关键 字 


关键 字 意义 

($'UTR 3 3B IX 
5'UTR 5' JEBBEIX 
-10.signal -10 信号 
-35.signal -35 f3& 
CAAT signal CAAT 信号 
CDS dms), &ftipdTES-E 
enhancer 增强 子 
exon HEF 
GC.signal GC fà 
gene (eL. £17E TSEEEZI 
intron 内 省 子 
LTR KAREE 
mat.peptide Wade TEIL TALEP 
mis.binding 错 结 合 点 
misc -feature 其 他 性 状 
misc.. RNA 其 他 RNA 
misc. signal 其 他 信和 号 
modified base 5 tio xt O0 WE 
mRNA 信使 RNA 
mutation 突变 
rRNA TENEO RNA 
tRNA 运输 RNA 
polyA.signal ERKAK 
poly A.site ERARA 
prim.transcript pjah H REg 
promotor AF 
protein-bind 看 和 白质 结合 位 点 
rep.origin 复制 起 点 
repeat.region 重复 区 
repeat unit 重复 单元 
satellite 卫星 片段 
sig.peptide fii S hk 
TATA .signal TATA fà € 


terminator AATF 
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E 4.3 中 没有 列 出 的 还 有 allele, attenuator, C.region, conflict , 
D-loop. D.segment , iDNA , J.segment , rnisc difference , misc recomb , 
misc.structure , N region, old.sequence , precursor RNA , prnner bind , 
RBS, S.region, scRNA , snRNA , stem.loop, STS, transit.peptide , 
unsure , V.region , V.segment , variation, virion, J'clip, 5'clip 
等 等 ， 其 详细 定义 在 文件 (R- 210] 中 给 出 . 从 ORIGIN 行 之 后 的 下 一 行 开 
始 ， 为 序列 本 身 .。 每 行 最 左 端 1- 9 格 ， 是 该 行 第 一 个 符号 的 序 喉 ， 向 右 
Xr. 第 11 -75 格 含 60 个 符号 (最 后 一 行 可 以 不 足 60) ， 每 10 个 符号 
用 空格 隔 开 ， 以 利 人 工 阅读 .然后 以 单独 的 // 行 作为 结束 标志 . 

EMBL 和 GenBank 数据 库 的 序列 本 身 ， 痢 可 延续 多 行 ， 前 而 没有 标 
志 ， 每 行 60 个 字母 ， 每 10 个 字母 如 一 空格 以 利 阅读 。 EMBL HE R HTA 
端 为 该 行 最 后 字母 的 序号 ， GenBank 舌 每 行 左 端 为 该 行 首 字 母 的 序号 . 

GenBank 的 genomes 子 目录 下 ， 每 个 物种 的 子 吕 录 中 为 使 用 方 使 市 
提供 了 多 种 格式 的 文件 .这 些 格式 列举 在 表 4.4 中 . 


** 4.4 GenBank 的 基因 组 文件 类 型 


_ 文件 名 后 RA 
.ffn FASTA 格式 的 核 行 融 编码 序列 


-fna FASTA ABH RIF XJ 
.faa FASTA 格式 的 作 基 酸 序列 
.gbk GenBank 格式 的 纯 文 本 文件 
ptt KAME 

.tab 序列 片段 组 装 情况 下 

-asn ASN.1 格式 ， 见 [R-180] 
.val ASN.1 巾 式 二 进 制 文件 


R-180 ASN.1 格式 (Abstract Syntax Notation 1) 是 NCBI [R-134] 所 发 展 
的 许多 程序 如 显示 蛋白 质 三 维 立 体 结 构 的 Cn3D( [R-779]) 所 使 用 的 
内 部 格式 。 它 必须 由 一 个 名 为 writeSeq 的 程序 产生 ， 被 专门 的 程序 
阅读 ， 而 不 直接 殿 最 终 用 户 使 用 ， 因 此 这 于 不 予 介 绍 . 

R-181 蛋白 质 信 息 资源 库 PIR [R-404] 采 四 与 国际 科学 数据 库 CODATA -- 
致 的 PIR/CODATA 格式 , 请 参看 PIR 库 有 有关 文 件 . 关于 CODATA, 
可 参看 其 中 国 委员 会 的 网 页 : 
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http://www.cncodata.ac.cn/ 


4.2.2 ”序列 文件 格式 


下 而 介绍 几 种 常见 的 序列 文件 格式 . 


R-182 FASTA 格式 ， 又 称 Pearson 格式 ， Pearson 是 FASTA 的 主要 帮 


者 . 这 是 比较 简单 而 使 用 最 多 的 序列 格式 . 序列 文件 的 第 一 行 是 由 大 
于 符号 (>) 打头 的 任意 文字 说 明 ， 主 要 为 标记 序列 用 。 从 第 二 行 开 
始 是 序列 本 身 ， 只 允许 使 用 表 3.2 中 的 标准 核 苷 酸 符号 或 表 3.3 中 的 
标准 的 氨基 酸 的 单字 母 符号 . 通常 核 首 酸 符号 大 小 写 均 可 , m AEM 
一 般 用 大 写字 母 . 有 些 程序 对 大 小 写 有 明确 要 求 、 使 用 时 须 注意 . 文 
件 中 的 每 一 行 都 不 要 超过 80 个 字母 . 由 于 FASTA 格式 没有 特殊 的 
序列 结束 标志 , 建议 最 后 多 窗 一 个 实行 . 这 是 因为 有 些 电子 邮件 系统 
会 自动 在 信 息 加 土 发 信人 的 地 址 、 电 话 等 ,如 无 空 行 哆 离 ， 可 能 被 程 
序 误 认为 序列 . 下 面 是 FASTA 格式 的 一 条 DNA EFX: 


> Human (lambda) DNA for immunoglublin light chain D86989 
aactgtactcacgtgacagttccctgaatcttcatacagattatctcctaccctttatag 
tgcatgtttcttatgaaggcctcchacatgctagccatttcctactaa&ctaactcaact 
agcatgatgtcaacaacacagtcaatcaatgggatattttetgegetgctcagatggcag 
aatgctcccacatcastaaaact 


R-183 Staden 格式 是 Staden 程序 包 [R-690] 所 使 用 的 形式 上 最 简单 的 格 


R. ERARA EER, 每 行 有 60 个 字母 ， 使 用 表 3.2 ME 3.3 所 
规定 的 核 苷 酸 或 氨基 酸 的 单字 母 符号 . 


R.184 GOG 格式 . 这 是 商业 性 的 GCG 软件 包 [R-792] 的 专用 格式 . 它 前 


面 可 有 任意 行 注释 ， 直 到 两 个 相连 的 贺 点 “. .”"。 包含 两 个 . .在 内 
的 最 后 一 行 注释 是 序列 名 字 、 长 度 、 日 期 ， 以 及 一 个 检查 和 (Check 
sum), 。 检 查 和 的 设置 原来 是 为 了 检查 输出 输入 错误 ， 现 永 反倒 是 给 
用 户 交替 使 用 GCG AMIE GCG 程序 制造 困难 ， 并 且 妨 得 “和 手工” 编 
辑 序列 数据 . 


R-185 Plain/Raw 格式 ， 即 未 作 任 何 收 饰 的 原始 纯 文 本 格式 。 


4.2.8 多 序列 格式 


各 种 多 序列 联 配 程序 往往 使 用 不 同 的 输入 / 输出 序列 格式 . FRA 


假设 来 自 三 个 物种 的 三 条 相似 的 DNA 序列 为 例 , 介绍 几 种 常见 的 多 序列 
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格式 2 


R-186 FASTA 格式 可 以 用 于 多 序列 联 配 . 不 含 空格 时 如 下 : 


»Sequence 1 
GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTÀA 
ACCCCACTCTGTGTTACTTTAAATTGCACTAATGCGACGTATACTAAT 
»Sequence 2 
GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 
ACCCCACTCTGTGTTACTTTATGCACTAATGCGACGTATACTAAT 
»Sequence 3 
GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 
ACCCCACTCTGTGTTACTTTAACTAATGCGACGTATACTAAT 
允许 插入 空格 “- ”时 ， 同 样 三 条 序列 为 : 
»Sequence 1 
GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 
ACCCCACTCTGTGTTACTTTAAATTGCACTAATGCGACGTATACTAAT 
»Sequence 2 
GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 
ACCCCACTCTGTGTTACTTTA-—-TGCACTAATGCGACGTATACTAAT 
»Sequence 3 
GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 
ACCCCACTCTGTGTTACTTTA -- -- --. ACTAATGCGACGTATACTAAT 


R-187 Phylip 格式 . 这 是 免费 的 亲缘 关系 计算 程序 Phylip( 见 [R-677]) 所 


要 求 的 输入 格式 。 Phylip 的 老 版 本 ， 如 3.2 或 3.4 ， 在 继 节 上 还 略 有 有 


不 同 .较为 近期 的 例子 如 : 


3 96 


Sequence 1 GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 
Sequence 2 GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTÀA 
Sequence 3 GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 


ACCCCACTCTGTGTTACTTTAAATTGCACTAATGCGACGTATACTAAT 
ACCCCACTCTGTGTTACTTTA- --TGCACTAATGCGACGTATACTAAT 
ACCCCACTCTGTGTTACTTTA------ ACTAATGCGACGTATACTAAT 


R-188 NEXUS 格式 . 这 是 商业 性 的 亲缘 关系 计算 程序 PAUP [R. .678] 所 


要 求 的 输入 格式 . 它 有 了 两 种 选择 . 一 是 把 每 个 序列 连续 地 排列 ， 结 束 


之 后 再 排 下 一 个 序列 ， 例 如 : 
#NEXUS 
BEGIN DATA; 


20 fe Y (R-17] -HHR 2. 
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DIMENSIONS NTAX=3 NCHAR-96; 

FORMAT MISSING=? GAP=- DATATYPE-DNA; 

MATRIX 

Sequence 1 
GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 
ACCCCACTCTGTGTTACTTTAAATTGCACTAATGCGACGTATACTAAT 
Sequence 2 
GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 
ACCCCACTCTGTGTTACTTTA-- -TGCACTAATGCGACGTATACTAAT 
Sequence 3 
GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 
ACCCCACTCTGTGTTACTTTA------ ACTAATGCGACGTATACTAAT 


这 种 格式 不 便于 目 视 观 察 联 配 情况 . 因此 , 第 二 种 选择 是 把 联 配 
好 的 各 个 序列 放 在 一 起 ， 同 时 切断 和 移行 


HNEXUS 
begin data; 

dimensions ntax-3 nchare96; 

format datatype«dna CGAP=: interleave; 

matrix 
Sequence 1 GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 
Sequence 2 GATATAATCAGTTTATGGGATCARAGCCTAAAGCCATGTGTAAAATTA 
Sequence 3 GATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTA 


Sequence 1 ACCCCACTCTGTGTTACTTTAAATTGCACTAATGCGACGTATACTAAT 
Sequence 2 ACCCCACTCTGTGTTACTTTA-- -TGCACTAATGCGACGTATACTAAT 
Sequence 3 ACCCCACTCTGTGTTACTTTÀ------ ACTAATGCGACGTATACTAAT 


R-189 NBRF 格式 . 这 是 支持 PIR [R-404] 数据 库 的 美国 全 国生 物 医学 研 
究 基 金 会 (NBRF) 采用 的 多 序列 格式 . 


>DL;Sequence 

Sequence 1, 96 bases, 75OEDA48 checksum. 

GATATAATCA GTTTATGGGA TCAAAGCCTA AAGCCATGTG TAAAATTAAC 
CCCACTCTGT GTTACTTTAA ATTGCACTAA TGCGACGTAT ACTAAT* 
PDL; Sequence 
Sequence 2, 93 bases, D557AESC checksum. 

GATATAATCA GTTTATGGGA TCAAAGCCTA AAGCCATGTG TAAAATTAAC 
CCCACTCTGT GTTACTTTAT GCACTAATGC GACGTATACT AAT» 

>DL; Sequence 

Sequence 1, 90 bases, B916B9DB checksum. 

GATATAATCA GTTTATGGGA TCAAAGCCTA AAGCCATGTG TAAAATTAAC 
CCCACTCTGT GTTACTTTAA CTAATGCGAC GTATACTAAT* 
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R-190 Stockhom 格式 ， 由 HMMER [R-739] 、 Pfam(R-478] 和 Blixem 
[R- 647] 等 使 用 的 一 种 多 序列 格式 ， 可 参看 KISAC [R-145] 的 网 页 . 

R-191 MSF(Multiple Sequence Format) 多 序列 格式 ， 是 商业 性 的 GCG $ 
件 包 [R-792] 专用 的 联 配 格式 . 


4.2.4 其 他 序列 格式 


最 后 ， 简 单 提 一 于 使 用 较 少 的 一 些 序列 格式 . 除了 SELEX 格式 外 ， 

ReadSeq 程序 都 可 以 处 理 . 

R-192 Standard 格式 , XK IG 格式 , 每 个 数据 文件 可 以 包含 多 条 序列 。 
注释 行 由 分 号 “; ”开头 ， 可 有 多 行 。 每 个 序列 第 一 行 给 出 序列 名 称 
和 简单 信息 ， 随 以 若干 行 不 空格 的 符号 序列 ， 最 后 一 行 符号 以 数字 1 
或 2 作 结 束 符 ， 

R-193 DNAStrider 格式 用 于 某 些 Macintosh 程序 ， 故 从 略 . 

R-194 SELEX 是 一 种 旧 的 多 序列 格式 ，Stokhoim 格式 仍 保 持 与 其 兼容 ， 
如 遇 到 可 参看 [R-190] . 

R-195 Fitch 格式 ， Fitech 是 20 世纪 70 年 代 初 最 早 的 亲缘 树 算 法 的 提出 
We 

R-196 Zuker 格式 ， 这 是 只 用 于 输入 的 一 种 烙 式 . 

R-197 Olsen 格式 ， 这 也 是 只 用 于 输入 的 一 种 格式 . 

R-198 Pretty 格式 ， 这 是 只 用 于 “漂亮 输出 ”的 一 种 格式 . 


84.3 ”数据 库 检索 工具 


当前 许多 生物 数据 库 都 不 仅 是 罗列 数据 ， 一 般 还 配 有 自己 的 检索 工 
具 ， 可 以 按 关 键 字 查询 ， 并 且 链 接 到 有 头 网址 或 文献 . 下 面 介 绍 几 种 沼 
见 的 数据 库 检 索 工 具 . 


4.3.1 Entrez 检索 工具 


Entrez 是 美国 国家 生物 技术 信息 中 心 NCBI [R-134] 所 提供 的 集成 
检索 工具 . 最 方便 的 用 法 是 在 网 络 浏览 器 中 访问 , 也 可 以 下 载 到 本 地 计算 
机 上 运行 . 
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R-199 Entrez 网 址 : 
http://www.ncbi.nlm.nih.gov/Entrez/ 


Entrez 根据 用 户 的 询问 ， 在 5 组 数据 库 之 间 进 行 交叉 检索 ， 这 5 组 
NUS EE RE. 


1. PubMed 文献 库 MEDLINE [R-599] . 

2. 核酸 序列 库 如 GenBank [R- 212] . 

3. 蛋白 质 序列 库 . 

4. 结构 数据 库 如 MMDB [R-463]. PDB[R-441] . 
5. 在 Genomes 总 名 称 下 面 的 各 种 基因 图谱 库 . 


用 户 可 以 从 任何 一 个 数据 库 开 始 ， 用 作者 名 字 、 序 列 索取 号 、 基 因 

或 蛋白 质 名 称 、 酶 的 EC 编号 等 各 种 各 样 的 关键 字 搜 索 ， 借 助 直 接 链接 和 

“ 邻 域 ”得 到 大 量 有 关 记 录 ， 也 可 在 检索 过 程 中 补充 新 的 关键 字 , 缩小 查 

3g GB]. 直接 链接 的 意义 很 明确 . 例如 从 作者 找到 文章 摘要 ， 其 中 提 到 的 
基因 或 蛋白 质 都 朋 通 向 相应 库 中 条 目的 超 链接 ， 一 “点 ” 即 到 ; 如果 该 恒 
白质 的 三 维 结构 已 经 定 出 ,就 会 看 到 通 向 有 关 条 目的 链接 ， 甚 至 可 以 调用 
Cn3D [R-779] 观看 其 立体 结构 的 转动 . 

“WPR” 是 Entrez 特有 的 概念 , 我 们 稍 加 解释 . 序列 邻 域 是 在 BLAST 
[R-631] 局 域 联 配 意义 下 相近 的 序列 集合 . 结构 令 域 是 用 VAST [R-464] EE 
较 得 到 的 相似 的 结构 .文献 邻 域 则 是 根据 标题 和 搞 要 中 重要 关键 字 及 其 
衔接 关系 确定 的 “与 本 文 类 似 的 文章 ”. 

以 上 介绍 的 是 所 谓 Web Entrez 的 服务 方式 . 用 户 只 要 装 有 标准 的 浏 
览 器 ， 如 Netscape 或 Internet Explorer ,就 可 以 工作 . 检索 系统 实际 土 在 
NCBI 运行 。 如 果 嫌 这 种 运行 方式 效率 太 低 ,而 所 在 单位 已 经 具备 快速 互 
联网 ， 那 就 可 以 从 NCBI 下 载 Network Entrez 到 本 地 计算 机 上 运行 .前 
面 提 到 的 Cn3D 三 维 结构 显示 程序 ， 是 Network Entrez 的 组 成 部 分 . 如 果 
使 用 Web Entrez ， 就 要 事先 从 NCBI 下 载 ， 作 为 浏览 器 的 插件 (plug-in) 
装 好 . 

对 于 网 络 条 件 不 佳 的 用 户 ， 可 以 通过 Query 电子 邮件 享用 Entrez HR 
Jy. 如果 只 需要 从 单个 数据 库 提 取 某 一 条 目 ， 可 以 使 用 Retrieve 电子 邮 
件 服务 ， 
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R-200 Query 电子 邮件 服务 . 电子 邮件 必须 遵从 一 定格 式 ， 清 参看 说 昌文 
ft: 
http://www.ncbi.nlm.nih.gov/Web/Search/query.txt 
mailto: query€ncbi.nlm.nih.gov 

R-201 retrieve 电子 邮件 服务 ， 详 情 也 请 参看 说 明文 件 : 
http://ww«.ncbi.nlm.nih.gov/Web/Search/retrieve.txt 
我 们 提醒 读者 设置 好 回信 行 数 ， 否 则 文件 超过 补 人 缺 行 数 时 只 能 取 到 
部 分 记录 .电子 邮件 地 址 ; 
mailto: retrieveOncbi.nlm.nih.gov 

R-202 LocusLink 是 NCBI 提供 的 对 经 过 审读 的 序列 及 其 遗传 位 点 描述 
信息 的 查询 系统 。 请 参看 : 
http://www.ncbi.nlm.nih.gov/LocusLink/ 


4.3.2 SRS 检索 工具 


R-203 SRS 序列 查询 系统 (Sequence Retrieval System) 是 欧洲 分 子 生物 学 
网 EMBnet [R-132] 的 主要 数据 库 检索 工具 ， 可 从 EMBnet 的 主页 进 
A. 它 的 最 初 设计 见 : 
T. Etzold, CABIOS (Bioinformatics) 9 (1993) 49 — 57. 
现在 的 版 本 是 SRS6 . 掌握 SRS 的 方法 是 实际 运用 . 中国 用户 可 从 
北京 大 学 生物 信息 中 心 [R-166] 的 EMBnet 镜 象 点 的 主页 进入 . 日 
本 DDBJ [R-213] 最 近 出 向 用 户 提供 SRS 界面 . 


4.3.3 DBGET/LinkDB 检索 工具 


日 本 京都 大 学 化 学 研究 所 建立 的 GenomeNet 数据 库 服务 网 页 ,包含 
KEGG [R.-554] 和 DBGET/DB 两 套 主要 系统 。 前 者 注重 代谢 途径 ， 后 者 
处 理 数据 库 检索 . 

R-204 GenomeNet 数据 库 服 务 网 页 ， 提供 国际 上 重要 生物 数据 库 和 一 些 

日 本 学 者 建立 的 库 的 检索 和 交叉 引用 。 有 些 数 据 库 吓 前 已 艇 到 每 日 

更 新 。 详情 见 网 址 ， 

http: //wwa . genome . ad. jp/ 
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R-205 DBGET 检索 工具 的 使 用 说 时 见 : 
http://www.genome.ad.jp/dbget/dbget manual.html 


84.4 数据库 崩 录 


从 1994 年 开始 ，《 核 酸 研 究 》 杂 志 (Neucleic Acids Research [R-6]) 
每 年 第 一 期 是 生物 数据 库 专 集 。 1998 、 1999 和 2000 三 年 该 列 分 别 介绍 
了 102. 105 和 114 种 数据 库 ， 有 的 篇 目 讲 了 不 止 一 种 库 ， 有 的 库 每 年 
重复 介绍 . 因此 ,上面 的 数字 并 不 反映 数据 库 的 确切 种 数 , 但 这 是 获取 生 
物 数 据 库 最 新 情况 的 一 个 好 起 点 . 特别 是 从 2000 年 开始 ， 出 版 《 较 酸 研 
究 》 的 牛津 大 学 出 版 社 设立 了 一 个 数据 库 目 录 网 页 [R-6] ,可 以 按照 字母 
或 分 类 查找 ， 并 且 立 即 链接 到 所 需要 的 数据 库 . 这 个 网 页 把 数据 库 分 成 
18 类 .我 们 有 所 合并 ， 并 把 数据 库 目 录 、 农 林 牧 有 关 数 据 库 、 恬 学 数据 
库 和 文献 目录 库 单独 列 出 ， 分 成 以 下 16 类 介绍 ， 

1. 数据 库 目 录 . 


2. 综合 数据 库 ， 包 括 DNA 序列 库 : EMBL (R-211] , GenBank 
[R-212] 、 DDBJ[R-213]. GSDB[R-214], TDB [R-215] 和 UniGene 
[R-308] . 


3. DNA 序列 数据 库 ， 主 要 是 与 基 码 结构 和 认定 有 关 的 数据 ， 姐 密 珊 
子 使 用 频 度 家 [R-217] 、 真 核 生物 启动 子 库 [R-218] 、 内 含 子 和 外 星子 库 
[R-246] 等 . 


4. RNA 序列 和 核糖 体 数据 库 . 

5. AARRE. 

6. 人 类 基因 组 数据 库 . 

7. 其 他 物种 基因 组 数据 库 . 

8. 基因 表达 数据 库 . 

9. 基因 突变 、 病 理 和 免疫 数据 库 . 

10. 蛋白 质 序列 数据 库 . 

il. 蛋白 结构 数据 库 . 

12. 比较 基因 组 学 和 蛋白 质 组 学 数据 库 . 
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13. 代谢 途径 和 细胞 调控 数据 库 . 

14. S HI K ER S. 

15. 医学 数据 库 . 

16. 其 他 数据 库 . 

一 个 数据 库 可 能 跨越 两 个 以 上 门类 . 例如 DNA 转录 就 涉及 许多 因 
子 和 它们 的 结合 位 点 ， 前 者 是 蛋白 质 ， 后 者 是 DNA ， 很 礁 唯 -- 地 归 入 哪 
一 类 . 下 面 介绍 的 数据 库 并 不 限于 《核酸 研究 》 近 两 年 所 列 者 . 每 个 库 名 
条 目下 ， 尽 可 能 给 一 简单 说 明和 网 址 ， 以 及 一 两 篇 较 近 期 的 引 义 ， 

R-206 NAR 网 页 基于 《核酸 研究 》 订 志 [R-6]1999 和 2000 两 年 第 一 期 
所 介绍 的 数据 库 ， 列 举 了 通 向 224 个 数据 库 的 链接 . 网 址 ， 
http://www.oup.co.uk/nar/Volume 28/Issue. 01/ 
html/gkdiib gml.html 
R-207 DBcat ， 法 国生 物 信息 中 心 INFBIOOGEN [R-148] 维护 的 ， 建 于 

1994 年 的 生物 数据 库 目录 . BO HR VR. 

C. Discala, X. Benigni, E. Barillot, and G. Vaysseix, Nucleic Acids Res. 

28 (2000) 8 - 9. 

网 址 ， 

http://ww4.infobiogen.fr/services/dbcat/ 

北京 大 学 生物 信息 中 心 [R-166] 有 其 镜 象 。 2000 年 5 月 底 DBeat 列 

举 了 513 种 数据 库 ， 其 分 类 统计 见 表 45. 


- 4.5 DBcat 列举 的 513 种 数据 库 的 分 类 统计 


RNA 
基因 组 58 
基因 图 谐 30 HARSH 18 
文献 43 其 他 153 
总 计 513 
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R-208 LiMB 是 1988 年 开始 建立 的 生物 信息 数据 库 目 录 . 那 时 全 部 数据 
库 名 单 都 印 在 一 篇 文章 里 : 
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J. R. Lawton, M. A. Martinez, and C. Burks, Nucl. Acids Res. 17 
(1989) 5885 - 5899. 

LiMB 已 经 停止 发 展 ， 它 的 历史 档案 保存 在 : 

gopher://gopher .nih.gov/11/molbio/other/ 

现在 请 参考 法 国生 物 信 息 中 心 INFOBIOGEN[R- 148] 所 维护 的 DBcat 
[R-207] . 


§4.5 ”综合 数据 库 


综合 性 的 通用 数据 库 多 为 大 型 的 一 级 核酸 序列 数据 库 ， 也 包括 翻译 
出 的 人 氨基酸 序列 . 目前 主要 是 月 本 . 欧 训 和 美国 三 家 各 自 建 立 和 共同 维护 
的 国际 核酸 序列 库 INSD , 

R-209 INSD 国际 核酸 序列 数据 库 (International Nucleotide Sequence Da- 
tabank) , H A Æ DDBJ (R-213] . 欧 训 EMBL [R-211] 和 美国 GenBank 
[R-212] 三 家 各 自 建立 和 共同 维护 . 这 三 个 数据 库 的 格式 大 间 小 异 ， 
每 天 自动 交换 数据 ， 保 持 同 步 更 新 。 1995 年 三 家 统一 了 注释 部 分 的 
特性 表 (FT 或 FEATURES) 的 定义 。 对 使 用 者 较为 重要 的 是 以 下 文 
fr. 

R-210 The DDBJ/EMBL/GenBank Feature Table: Definition. 1.08 版 ， 
1995 年 12 月 1 日 .可 从 GenBank FR: 
ftp://ncbi.nlm.nih.gov (/genbank/docs/) 

下 面 首先 扼要 介绍 这 三 个 数据 库 ， 然 后 提 及 其 他 几 个 综合 核酸 数据 
RE. 

R-211 EMBL 库 ， 欧 洲 分 子 生物 学 实验 室 的 DNA 和 RNA HE pp, E 
过 科学 文献 、 专利 申请 和 直接 投 送 获得 数据 ， 每 日 更 新 ， 每 年 四 版 . 
较 新 描述 参见 : 

W. Baker 等 7 位 作者 ， Nucleic Acids Res. 28 (2000) 19 - 23. 
网 址 : 

http://www.ebi.ac.uk/embl.htmi 
http://srww.ebi.ac.uk/ebi.docs/embl db/embl.db.html 
ftp://ftp.ebi.ac.uk (/pub/databases/embl/release) 
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idit EMBnet (R-132], EMBL 3&1 He fr iE e REACHES 
象 。 这 些 镜 象 点 的 名 单 参见 : 
http://www.ebi.ac.uk/embl/Access/other.sites.html 

北京 大 学 生物 信息 中 心 [R-166] 也 设 有 镜 象 ， 并 可 通过 检索 工具 SRS 
[R-203] 查询 ， 

R-212 GenBank 是 NCBI {R-134] 所 维护 的 供 公 众 自由 读 取 的 、 带 注释 的 
DNA 序列 的 总 数据 库 ， 每 天 更 新 ， 符 两 全 月 发 行 一 次 新 版 。 2000 年 
8 月 15 日 发 布 的 第 119.0 版 ， 一 共 收 录 了 8 214 339 个 DNA 序列 ， 
计 9 545 724 824 个 碱 基 对 (bp). 。 然 而 ， 每 个 DNA 序列 的 平均 长 度 
只 有 1 162 bp . 这 是 因为 早期 收录 的 序列 都 比较 短 . 特别 是 EST FF 
列 条 目 很 多 ， 市 后 条 长 度 甚 短 、 关 于 GenBank 数据 库 的 较 新 描述 请 
参看 : 

D. A. Benson 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 15 - 18. 
网 址 : 

http://www.ncbi.nlm.nih.gov/Web/Genbank/ 
ftp://ncbi.nlm.nih.gov (/genbank/) 

R-213 DDBJ ， 日 本 核酸 数据 库 {DNA Data Bank of Japan) , i f [| vr. 
遗传 研究 所 [R-137] 的 遗传 信息 中 心 . 它 首 先是 反映 月 本 所 产生 的 
DNA 数据 ， 同 时 与 GenBank (R-212] 和 EMBL [R-211] & fF, tid 
有 无 ， 同 步 更 新 ， 每 年 四 版 . 日 本 DDBJ 库 采 用 与 GenBank 一 致 的 
格式 ， 此 库 的 较 新 描述 参见 : 

Y. Tateno, S. Miyazaki, M. Ota, H. Sugawara, and T. Gojobori. Nucleic 
Acids Res. 28 (2000) 24 .- 26. 

网 址 : 

http://www.ddbj.nig.ac.jp/ 

ftp://ftp.nig.ac.jp (/pub/db) 

ftp://monet.genes.nig.ac.jp (/data/) 

rp E ELE pc ok AE VIUESE Pr CE HE OL SUE GG DDBJ 库 镜 象 ， 可 经 
由 其 网 页 [R-170] 访问 . 

R-214 GSDB 是 由 NCGR [R-135] 维护 的 DNA 序列 关系 数据 库 (Genome 
Sequence DataBase) , 它 搜集 核酸 序列 及 有 关 生 物 和 文献 信息 ， 其 自 
标 是 提供 一 个 集成 的 功能 基因 组 学 数据 库 . 从 1998 年 底 起 GSDB 不 
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再 接受 出 户 直接 提交 的 序列 , 库 中 已 有 序列 的 所 有 权 也 转 到 GenBank 
[R-212] 。 此 后 它 的 序列 每 天 晚上 来 自 INSD [R-209] 。 GSDB 集中 
力量 为 研究 者 免费 提供 检索 和 分 析 服 务 . 它 提供 的 工具 有 有 : 
Maestero — http://www.ncgr.org/gsdb/maestro/ 

Ad hoc query — http://www.ncgr.org/gsdb/adhoc/ 

Excerpt — http://www.ncgr.org/gsdb/excerpt/ 

Sequence Viewer — http://www.ncgr.gsdb.org/gsdb.sv/ 

另外 ， 还 有 纯 文 本 读 取 工 具 (Flatfile Retrieval Tool) 等 。 较 新 的 毁 述 
C. Harger 等 9 位 作者 。 Nucleic Acids Res. 28 (2000) 31 - 32. 

了 网址: 

http://www.ncgr.org/gsdb/ 

ftp://ftp.ncgr.org/ 

R-215 TIGR Database, TIGR [R-156] 研究 所 是 国际 上 重要 的 测序 中 
心 之 一 , 它 有 大 量 正在 测定 过 程 中 的 基因 组 数据 , 特别 是 EST 序列 。 
这 里 的 大 类 基因 索引 HGI 也 值得 注意 ， 请 参见 ， 

J. Quackenbush 等 5 位 作者 ， Aucteic Acids Res. 28 (2000) 141 - 145. 
TIGR 还 拥有 世界 上 最 大 的 cDNA 数据 库 之 一 ， 不 过 访问 有 限制 . 
网 址 ; 

http://www.tigr.org/tdb/hcd/overview.html 


$4.0 DNA. 序列 和 结构 数据 库 


妆 入 这 一 类 的 不 仅 是 单纯 的 DNA 上 序列。 有 些 与 DNA 的 复制 、 转 
录 、 收复 等 有 密切 关系 的 蛋白 质 因 子 , 也 和 DNA 放 在 一 起 , 以 利于 查询 . 
R-216 BioSino 是 中 国 自 主 开发 的 核酸 序列 公共 数据 库 ， 它 将 发 表 我 国 各 
基因 研究 中 心 提供 的 核酸 序列 ， 并 接受 我 国 核酸 序列 的 注册 登记 .。 
网 址 : 
http://www .biosino.org/ 
R-217 CUTG , 密码 子 使 用 频 度 表 . 这 是 由 GenBank [R -212] 中 的 DNA 序 
列 统 计 出 来 的 密码 子 使 用 频 度 表 (Codon Usage Tabulated from Gen- 
Bank) ， 按 物种 和 模式 生物 给 出 。 1999 年 9 月 CUTG 库 中 共有 来 自 
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257 4u6 4-76 En di v aa py 99 8 792 7- Y) PRÉS Vr T ER E 
A. ERUR A SENE HS P9 SEVERE VIENI SURE, 6 Sae, 请 参 
W: 
Y. Nakunura, T. Gojobori, and T. Ikemura, Nucleic Acids Res. 28 
(2000) 292. 
Ig i: 
http://www.dna.affrc.go.jp/^nakamura/CUTG.html 
http://www.kazusa.or.jp/codon/ 
ftp://ftp.kazusa.or.jp (/codon/current/) 
ftp://ftp.nig.ac.jp í(/pub/db/codon/current/) 
f1p://ftp.ebi.ac.uk (/pub/databases/cutg/) 
ftp://ftp.dna.affrc.go.jp (/pub/codon) 
http://www.dna.affrc.go.jp/^nakamura/CUTG.html 
各 主要 生物 信息 中 心 均 有 镜 象 . 北京 大 学 生物 信息 中 心 [R-166] ur 4 
其 镜 象 . 如 果 关 心 人 类 基 闲 组 中 的 密友 子 使 用 频 度 ,可 沪 癌 以 色 列 魏 
兹 曙 科 学 研究 所 生物 信息 组 的 数据 库 : 
http://bioinformatics.weizmann.ac.il/databases/codon 

R 218 EPD, AR EPki s T AEE (Eukarvotie Promotor Database) . 
4 Je 88 Br HOR deo C £8 EUR MA E IB IT 类 DNA SE NS I ah 
TIF Y, 包含 对 EMBL (R-211j RIY 9 BRE, SWISS-PROT [R 
401] ÆFA. TRANSFAC [R-219] HoR BFE, EL RRI on XC 
51H. 这 里 还 有 一 个 名 为 TRADAT ffj T Homzrif AIB. fa t5 HE H E 
二 实验 癌症 研究 所 ISREC [R-143] 的 P. Bucher Ai^, jb 95. 
R. C. Perier, V. Praz, T. Junier. C. Bonnard, and P. Bucher, Nucleic 
Acids Res. 28 (2000) 302 . 303. 
网 址 ; 
http://www.epd.isb-sib.ch/ 
ftp://ftp.ebi.ac.uk (/pub/databases/epd/) 
ftp://ftp.infobiogen.fr (/pub/db/epd/) 

R-219 TRANSFAC , H.E EU) A X RIN F CS, C E&i Edgar 
Wingender -PA (|. 1933 年 搜集 当时 仅 有 的 多 个 转录 因 于 开始 建立 
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f) ?* , PL EON RE DL GLA JANE EE EU A O acd E S US PE PRU VE. EXE, 
TRRD [R 221| &l COMPEL [R 227] 5E ME ib ££ tH TRANSFAC 衍生 出 
来 的 。 从 1999 年 第 3.5 Bi e, Wa ME TER] Pris RC TOI, IER 
E. Wingeuder ^E 10 {i ff ft, Nucleic Acids Res. 28 (2000) 316 - 319. 
网 址 : 
http://transfac.gbf.de/TRANSFAC/ 
http://www.biobase.de/ (ETE!) P" ig ir in ut p vi) 
北京 大 党 的 镜 旬 在: 
http://www.cbi.pku.edu.cn/gbf/ 

R 220 IMD 是 从 TRANSFAC '$ fifi VETE SE UL EIE D 53 EE Or à HE M9 
PEEB. MATRIX SEARCH HWD aE. X: PF IMD 
和 MATRIX SEARCH 均 请 参见 : 
Q. K. Chen, G. Z. Hertz. and G. D. Stormo. CABIOS ( Bioinformatics) 
11 {1995} 563 566. 
网 址 : 
ftp://beagle.colorado.edu 
MA FH /pub 中 取得 的 imd.i.1.tar.gz 是 1997 年 的 UNIX MA, 
HEARNE. 

R-221 TRRD, £'E193 pp 4 tU ED EE (Transcription Regu- 
latory Regions Database) 。 这 个 出 人 能 国 科 学 院 新 西伯 利 亚 分 院 网 胞 
和 遗传 研究 上 所 建 羡 和 维护 的 数据 库 ， 和 包含 转录 调控 区 结构 告 功 能 站 
£A. 所 涉及 的 蛋白 质 因 子 , 以 及 转录 信和 续 等 数据 。1999 年 底 的 第 4.2.5 
版 包 桥 760 ARERI, 3 403 个 表达 图 谱 和 4 600 多 个 调控 元 件 的 雯 
iB, 后 省 包含 3604 个 转录 因子 结合 位 点 、600 个 启动 子 和 152 个 增 
RF. WP 
N. A. Kolchanov 等 16 位 作者 ， Nucleic Acids Res. 28 (2000) 298 - 
301. 
网 址 ; 
http://wwumgs.bionet.nsc.ru/mgs/dbases/trrd4/ 

R-222 OOTFD , HRN T RUEBI RAKE, HE Ac g RH e $e ( 即 


2E, Wingender, Nucleic Acids Hes. 16 (19883) 1579 . 1902; Crit. Rev. Eukaryot. 
Gene Expr. b (19090) 11 4x. 
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OOP) [R-51] 的 程序 设计 技术 。 这 是 原来 TFD 关系 数据 库 的 OO 版 

本 .请 参见 : 

D. Ghosh, Nucleic Acids Res. 28 (2000) 308 - 310. 

网 址 : 

http://www.ifti.org/ 

消 椎 动物 基因 组 中 各 种 重复 序列 占有 很 高 的 比例 . 早 在 发 时 DNA WI 
序 方 法 之 前 ,就 养 密 度 梯度 法 发 现 了 重复 单元 达 数 千 碱 基 对 , 但 在 整个 基 
因 组 中 位 点 不 多 的 高 元 余 度 的 重复 序 至. 它们 的 组 分 不 很 均 急 , 集中 在 着 
丝 粒 附近 和 性 染色 体 的 异 染 色 质 (heterochromatin) 区 域 . 在 早期 空间 技 
本 发 展 的 历史 背景 于 ， 这 类 重复 序列 被 称 为 “卫星 ” (satellites) 序列 . 
它们 很 难 被 克隆 ， 至 今 仍 是 妨碍 真 核 生物 基 因 组 完全 测序 的 重要 因 案 . 
后 来 又 发 现 了 重复 单元 为 9 ~ 100 MER, 重复 可 达 数 百 次 的 “小 卫 是” 
(minisatellites) 序列 ， 以 及 重复 单元 为 1~6 个 碱 基 对 ， 重 复 约 100 次 的 
“ 微 卫 星 ” (microsatellites) 序列 ， 前 者 较为 集中 在 亚 端 粒 (telomere) 区 
域 ， 后 者 散布 在 染色 体 各 处 - 现在 知道 ， 微 卫星 序列 的 扩 增 是 若干 遗传 病 
的 原因 . 重复 序列 妨碍 序列 的 联 配 和 测序 片段 的 组 装 . 因此 ， 已 经 发 展 了 
一 些 重复 序列 数据 库 . 

R-223 RepBase ， 真 核 生 物 DNA 中 重复 序列 数据 库 ， 由 非 营利 性 的 遗 
传 信息 研究 所 (Genetic Information Research Institute 、 简 称 GIRI) 
维护 。 1999 年 12 月 为 4.04 hi. RepeatMasker 程序 [R-748] Bp if 
据 RepBase 库 工 作 . 此 库 区 别 对 待 学 术 性 和 商业 性 用 户 . 从 事 学 术 
研究 的 个 人 可 在 登记 注册 并 承诺 懂行 协 议 后 ， 免 费 下 载 . 详情 请 见 网 
址 : 
http://www.girinst.org/^server/repbase.htmi 

R-224 MicroSatellite 、 微 卫星 重复 序列 数据 库 ， 在 Smithsonian 4f f& 
统 学 实验 室 (Laboratory of Molecular Systematics) 。 网址: 
http://nmnhgoph.si.edu/gopher-menus/ 

MicroSatelliteDatabase.html 

R-225 ALU 数据 库 是 人 及 其 他 灵 长 类 代表 性 的 Alu 重复 片段 库 . 此 库 是 
从 RepBase 中 提取 的 Alu 序列 .网址 : 
ftp://ncbi.nlm.nih.gov (/pub/jmc/alu/) 

R-226 Simpie Repeats, WHAEA FTIF, ARAR: 
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J. Jurka, and C. Pethiyagoda, J. Moi. Evol. 40 (1995) 120 - 126. 
网 址 : 

ftp://ncbi.nlm.nih.gov 

访问 文件 (/repository/repbase/REF1/simple.ref). 


R-227 COMPEL , 复合 元 件 (composite elements) 数据 库 . xx dé dE JH 


或 部 分 重 登 的 蛋白 质 结合 位 点 ， 它 们 结合 来 自 不 同 的 因子 家 族 或 不 
同 的 信号 途径 的 蛋白 质 ， 提 供 转录 的 组 合 调控 ， 详 见 ， 

O.V. Kel-Margoulis, A. G. Romashchenko, N. A. Kolchanov, E. Win- 
gender, and A. E. Kel, Nucleic Acids Hes. 28 (2000) 311 - 315. 

这 个 由 俄国 新 西伯 利 亚 绍 胞 和 遗传 研究 所 建立 的 数据 库 ， 最 好 从 德 
国 的 网 址 访问 ， 

ftp://ftp.gbf-braunschweig.de (/pub/compel/) 


R-228 MPDB ， 分 子 探 针 数据 库 ， 包 含 大 约 4 000 种 人 工 合成 的 寒 核 背 


酸 ， 每 个 序列 可 长 达 100 个 核 背 酸 . 请 参见 : 

M. Giuseppina Campi 等 10 位 作者 。 Nucleic Acids Res. 26 (1998) 
147 — 149. 

网 址 : 

http://www.biotech.ist.unige.it/interlab/mpdb .html 


R-229 HvrBase, 灵 长 类 mtDNA 调控 区 序列 库 , 主要 是 人 的 HVI 和 HVII 


两 个 高 变异 区 的 序列 .请 参见 : 

F. Burckhardt, A. von Haeseler, and S. Meyer, Nucleic Acids Res. 27 
(1999) 138 - 142. 

网 址 : 

http://monolith.eva.mpg.de/hvrbase/ 


R-230 PlantCARE ， 植 物 顺 式 作用 (cis-acting) 调控 因子 数据 库 . 请 参 


看 : 

S. Rombauts, P. Dehais, M. Van Montagu, and P. Rouze, Nucleic Acids 
Res. 27 (1999) 295 - 296. 

Fi. 

http://sphinx.rug.ac.be:8080/PlantCare/ 


R-231 PLACE 是 从 文献 中 搜索 的 植物 顺 式 作用 调控 元 件 DNA 模 体 的 


数据 库 。 只 涉及 维 管 植物 . 请 参看 ， 
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K. Higo, Y. Ugawa, M. Iwamoto, and T. Korenaga, Nucleic Acids Fes. 
27 (1999) 297 - 300. 

网 址 : 

http://www .dna.affrc .go.jp/htdocs/PLACE/ 
ftp://ftp.dna.affrc.go.jp (/pub/dna place/place.seq 只 有 原 
始 数据 ) 

R-232 Mendel 数据 库 ， 搜 集 植 物 STS 和 EST 序列 ， 并 加 有 相应 基因 家 
族 的 信息 .网 址 : 
http://jiio6.jic.bbsrc.ac.uk/ 

R-233 HOX Pro 同 源 异 形 僵 基因 数据 库 . 同 源 异形 盒 (homeobox) & DNA 
中 高 度 保守 的 一 段 ， 长 约 180 碱 基 对 ， 编 码 60 个 氨基 酸 的 间 源 异形 
结构 域 (homeodomain) [R-435] . 1984 年 首先 在 果 蝇 中 被 发 现 ， 现 
在 知道 它 普 遍 存 在 于 真 核 生 物 基因 组 中 . 请 参看 [R-435] 和 以 下 描述 
文章 : 

A. V. Spirov, T. Bowler, and J. Reinitz, Nucleic Acids Res. 28 (2000) 
337 - 340. 

网 址 ; 

bttp://spirov.iephb.nw.ru/hox pro/hox-proOO.html 

R-234 OPD ， 午 核 蔡 酸 探 计数 据 库 (Oligonucleotide Probe DataBase) , 
€ 8x3 U I RR FREE FH T RRLAR SE. AH (in situ) 杂交 及 作为 PCR 引 
物 的 设计 和 使 用 信息 ， 反 映 已 发 表 和 未 发 表 的 实验 数据 和 文献 .网 
tE: 
http://www .cme.msu.edu/0PD/ 

R-235 dbSTS ， 序 列 标记 位 点 (Sequence Tagged Sites) MEIE, 网址， 
http://wwv.ncbi.nlm.nih.gov/dbSTS/ 
ftp://ncbi.nlm.nih.gov (/repository/dbSTS) 

R-236 dbEST ， 这 是 GenBank (R-212] 的 重要 组 成 部 分 ， 它 包含 若干 物 
种 的 已 表达 的 序列 标记 (Expressed Sequence Tag) 信息 . 此 库 开 始 于 
1993 年 。 当 时 的 描述 参见 : 

M. S. Boguski, T. M. J. Lowe, and C. M. Tolstoshev, Nature Genetics 
4 (1993) 332 ~ 333. 
网 址 : 
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http://www.ncbi.nlm.nih.gov/dbEST/ 
ftp://ncbi.nlm.nih.gov (/repository/dbEST) 


R-237 AMmtDB ， 后 生动 物 线粒体 DNA 多 序列 联 配 数据 库 ， 它 搜集 了 


交 椎 动物 线粒体 中 编码 蛋白 质 和 RNA 的 多 DNA 序列 对 比 数据 ， 
以 及 哺乳 动物 mtDNA 主 调控 区 (D-loop) 序列 联 配 数据 ,请 参看 : 
C, Lanave, S. Liuni, F. Licciulli, and M. Attimonelli, Nucleic Acids 
Res. 28 (2000) 153 - 154. 

PI BE: 

http://bio-www.ba.cnr.it:8000/BioWWW/WRAMMTDB 


R-238 HOVERGEN ， 背 推动 物 同 源 基 因数 据 库 (HOmologous VERte- 


brate GENes) , 它 的 特点 是 搜 梨 非 编 码 区 的 高 度 保守 的 多 序列 联 配 . 
描述 见 : 

L. Duret, D. Mouchiroud, and M. Gouy, Nucleic Acids Res. 22 (1994) 
2360 - 2365. 

网 址 : 

http://acnuc.univ-lyoní.fr/ 

ftp://biom3.univ-lyoni.fr (/pub/hovergen) 
ftp://ftp.infobiogen.fr (/pub/db/acnuc/hovergen) 
ftp://ncbi.nlm.nih.gov (/repository/hovergen) 


R-239 DNA 结构 参数 库 ， BEND [R-751] 等 DNA 结构 预测 程序 使 用 此 


库 中 参数 ， 描 述 见 ， 

R. Lavery, and H. Sklenar, J. Biomol. Struct. Dyn. 6 (1988) 63 - 91. 
Fd E: 

ftp://transfac.gbf.de (/pub/structure library) 


R-240 NUCLEOSOME 数据 库 ， 收 集 实验 测定 的 核 小 体 数 据 ， 用 于 预测 


DNA 中 与 组 蛋白 八 聚 体 结 合 的 位 点 。 描述 见 : 

I. loshikhes, and E. N. Trifonov, Nueceic Acids Res. 21 (1993) 4857 — 
4859. 

网 址 : 

ftp://ftp.ebi.ac.uk /pub/databases/nucleosomal dna/ 


R-241 SELEX.DB , MELE 94 BE. 俄国 新 西伯 利 亚 细胞 和 遗传 学 研究 


所 的 理论 遗传 学 研究 室 建 立 此 库 ， 提 供 专 为 基因 组 注释 参考 用 的 随 
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机 化 的 DNA 和 RNA 序列 ， 清 参看 : 

J. V. Ponomarenko 等 7 位 作者 ， Nucileic Acids Res. 28 (2000) 205 - 

208. 

Win: 

bitp://wwwmgs.bionet.nsu.ru/mgs/systems/selex/ 

除了 后 面 要 介绍 的 YIDB [R-361] PEZ 5b, fim X gu y LT 6X 
内 含 子 、 外 显 子 和 mRNA 前 体 BEEESU S IRE: 

R-242 ASDB ， 交 寺前 接 基 因 的 数据 库 ， 描 述 见 : 

I. Dralyuk, M. Brudno, M. S. Gelfand, M. Zorn, I. Dubchak, Nucleic 
Acids Res. 28 (2000) 296 - 297. 

网 址 ; 

http://hattrick.lbl.gov:8888/ 

R-243 Intronerator , j5g82£:b [R-94] 内 含 子 和 交替 剪接 数据 库 。 描述 
pu 
W. J. Kent, and A. M. Zahler, Nucleic Acids Res. 28 (2000) 91 - 93. 
网 址 : 
http://www.cse.ucsc.edu/^kent/intronerator/ 

R-244 IDB fln IEDB ， 前 者 是 内 含 子 序列 数据 第 ， 后 者 是 内 含 子 演化 数 
据 库 . 1999 年 8 月 IDB 包含 63 000 个 基因 和 154 000 个 内 含 子 ; 
IEDB 总 结 了 2 800 个 物种 的 信息 . 这 两 个 库 目前 每 两 年 更 新 一 版 。 
请 参看 : 

N. J. Schisler, and J. D. Palmer , Nucleic Acids Res. 28 (2000) 
181 - 184. 

网 址 : 

http://nutmeg.bio.indiana.edu/intron/index.html 

R-245 EID ,外 显 子 、 内 含 子 数据 闫 . 它 尽 可 能 完全 地 搜集 了 具有 内 仿 子 
的 、 编 码 蛋 白质 的 基因 数据 1999 年 8 月 EID 包含 51 289 个 基因 
和 287 209 个 与 内 含 子 为 邻 的 外 显 子 。 请 参看 ; 

S. Saxonov, I. Daizadeh, A. Fedorov, and W. Gilbert, Nucleic Acids 
Res. 28 (2000) 185 - 190. 

Wh: 

http://mcb.havard.edu/gilbert/EID/ 
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R-246 ExInt ， 外 显 子 、 内 含 子 数据 库 . 请 参看 : 
M. Sakharkar, M. Long, T. W. Tan, and S. J. de Souza, Nucle:c Acids 
Res. 28 (2000) 191 - 192. 
网 址 : 
http://intron.bic.nus.edu.sg/rint/exint.html 
R-247 NDB , Ee dA iE es P ERE. 请 参看 : 
H. M. Berman 等 9 位 作者 ， Biophys. J. 63 (1992) 751 - 759. 
网 址 : 
ftp://ndbserver.rutgers.edu/ 
http://ndbserver.rutgers.edu/NDB/ndb.html 


有 一 些 与 DNA 测序 或 基因 工程 关系 揭 密 切 的 数据 库 ， 也 放 在 DNA 
数据 库 这 一 节 略 加 介绍 。 首先 是 几 个 载体 数据 库 . 它们 不 仅 用 于 设计 载 
体 ， 而 且 往 数据 库 提 交 新 序列 前 ， 以 及 从 库 中 取 来 的 DNA 序列 ， 如 EST 
序列 ， 往 往 要 借助 VectorDB 和 Vector-ig 等 库 排 除 其 中 误 带 的 载体 序列 
AB. 

及 -248 VectorDB , f£ (Hos PE, 958 RETI A HR DS 3 RIA 

均 为 GenBank 格式 (R-179] . 网址 : 

http://vectordb.atcg.com/ 

R-249 Vector 和 Vector-ig 库 ， 包 含 分 子 生 物 学 常用 的 许多 载体 的 注释 

和 序列 信息 。 网址 

ftp://ncbi.nlm.nih.gov (/repository/vector-ig) 

ftp://ncbi.nlm.nih.gov (/repository/vector) 

R-250 另 一 个 有 用 的 载体 库 在 : 
http://biology.queensu.ca/miseners/vector.html 
R-251 UniVec 数据 库 。 NCBI [R-134] 的 VecScreen 服务 使 用 UniVec 数 

据 库 过 滤 序 列 中 来 自 载体 的 片段 。 网 址 : 

http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html 


84.7 RNA 序列 和 核糖 体 数据 库 


各 种 RNA 在 细 风 中 起 着 多 种 作用 . 除了 信使 RNA (mRNA). pE 
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RNA (tRNA) 、 构 成 核糖 体 肯 架 的 rRNA 、 导 引 RNA (gRNA), xS & 
种 不 灾 译 成 蛋白 质 的 RNA ， 起 着 调控 或 催化 作用 ， 有 些 功 能 尚未 前 明 . 
作为 蛋白 质 制造 /的 核糖 体 ， 三 分 之 二 由 RNA 组 成 , 它们 的 数据 库 也 放 
在 这 一 节 介 绍 . 
R-252 1993 年 成 立 的 RNA 学 会 ， 在 出 版 RNA 刊物 同时 ， 还 维护 着 两 个 
信息 网 页 ， 
http://www .pitt.edu/^rnal/ 
http://www.cup.org/Journals/JNLSCAT/rRNA/rna.html 
此 外 , 还 请 参看 有 关 RNA 的 生物 信息 学 会 议 文 集 [R-829] 和 Ambion 
公司 发 行 的 电子 通信 RNA Flashnotes [R-806) , 
R-253 snoRNA 数据 库 ， 小 核 仁 RNA (snoRNA) 是 真 核 生 物 细 胸 核 仁 中 
的 一 类 稳定 的 RNA , fEBEGEIRZJ & 75 ~ 100 种 ， 在 哺乳 动物 中 可 
能 达 200 种 、 它 们 不 直接 参与 蛋白 质 合成 ， 但 与 "rRNA 的 切割 和 折 
RAX. REHAR IEAA snoRNA 数据 库 ， 详 细 扒 述 
请 参看 ， 
D. A. Samarsky, and M. J. Fournier, “A comprehensive database for 
the small nucleolar RNAs from S, cerevisiae", Nucleic Acids Res. 27 
(1999) 161 - 164. 
网 址 : 
http://www.bio.umass.edu/biochem/rna-sequence/ 
Yeast snoRNA.Database/snoRNA.DataBase.html 
R-254 Small RNA 数据 库 ， 所谓 小 RNA 是 指 哪些 不 直接 参与 蛋白 质 合 
成 的 RNA 分子. 真 核 生物 核 仁 、 细 胸 质 、 线 粒 体 ， 以 及 一 些 原核 生 
物 和 病毒 都 含有 小 RNA . 库 的 描述 参见 : 
Jian Gu, Yahua Chen, and Ram Reddy, Nucleic Acid Res. 26 (1998) 
160 - 162. 
网 址 : 
http://mbcr.bcm.tmc.edu/smallRNA/smallrna.html 
R-255 RNAse P 数据库, 包含 RNA 水 解 酶 P 的 RNA 亚 基 序 列 、 联 配 、 
二 级 结构 和 三 维 模型 。 描 述 见 : 
J. W. Brown, Nucleic Acids Res. 26 (1998) 351 — 352. 
网 址 : 
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http://jwbrown.mbio.ncsu.edu/RNAseP/home.html 


tmRNA 旧称 108a RNA , 其 遗传 学 名 字 为 SsrA ,迄今 只 在 真 细 菌 和 
一 些 细胞 器 中 发 现 . CE mRNA 翻译 成 蛋白 质 的 最 后 阶段 有 重要 作用 . 
现在 有 一 个 tmRNA 网 点 [R-256]| 和 一 个 tmRDB 数据 库 [R-257] . 

R-256 tmRNA 网 点 ， 包 含 tmRNA 序列 、 公认 蛋 白质 水 解 标 记 、 序 列 联 

配 、 确 定 新 tmRNA 的 导 寺 ， 以 及 简要 综述 等 。 见 : 

K. P. Williams, Nucleic Acids Hes. 28 (2000) 168. 

Fg hb: 

http://www.indiana.edu/^tmrna/ 


R-257 tmRDB ,已 经 联 配 好 的 .如 有 注释 的 、 按 亲缘 关系 排列 的 tmRNA 


序列 数据 ， 详 见 : 
C. Zwieb, and J. Wower, Nucleic Acids Res. 28 (2000) 169 - 170. 
网 址 : 


http://psyche.uthct . edu/dbs/tmRDB/tmRDB. html 

R-258 gRNA ， 导 引 RNA (guide RNA) Sig HE, && CE X gRNA JF 
列 和 文献 . 其 3.0 版 介绍 见 : 
S. Hinz, and H. U. Geringer, Nucleic Acids Res. 27 (1999) 168. 
网 址 : 
http://www.biochem.mpg.de/^goeringe/ 

R-259 SRPDB ， 信 号 识别 粒子 数据 库 . 这 是 研究 信号 识别 粒子 (Signal 
Recognition Particle, ， 简 称 SRP) 功能 与 结构 的 下 具 . "Ce Ut c E 
物 和 十 细菌 的 带 注释 的 SRP 的 RNA 序列 ， 按 亲缘 关系 排列 ， 并 辐 
它们 的 细菌 等 价 序列 联 配 。 请 参看 : 
C. Zwieb, and T. Samuelsson, Nucleic Acids Res. 28 (2000) 171 - 172. 
关于 SRP 的 较 新 报道 ， 还 可 参看 下 文 及 其 所 引 同 期 文章 : 
P. Walter, R. Keenan, and U. Schmitz. Science 287 (2000) 1212. 
网 址 : 
http://psyche.uthct .edu/dbs/SRPDB/SRPDB .html 

R-260 TransTerm ， 信 使 RNA 的 组 分 和 翻译 控制 信和 号 数据 库 。 它 包括 
GenBank [R-212] 中 许多 物种 的 起 始 和 终止 密码 子 、 密 码 子 使 用 频 度 
表 、5UTR 和 3UTR 序列 、 编 码 区 的 某 些 参数 如 GC 偏离 等 。 1999 
年 10 月 TransTerm GARA 1 万 个 物种 的 数据 ， 其 中 有 20 个 原核 
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生物 和 3 个 真 核 生 物 的 完全 基因 组 .请 参看 ; 
G. H. Jacobs 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 293 - 295. 
网 址 : 
http://biochem.otago.ac.nz/Transterm/ 

R-261 类 病毒 (viroids) 和 类 病毒 样 (viroid-like) RNA 数据 库 . 这 是 会 自我 
复制 的 最 小 的 RNA 物种 . 请 参看 ， 
M. Pelchat, P. Deschenes, and J. P. Perreault, Nucleic Acids Res, 28 
(2000) 179 -- 180. 
网 址 : 
http://www.callisto.si.usherb.ca/^"jpperra/ 

R-262 UTRdb 和 UTRsite . 许多 基因 表达 的 调控 元 件 在 DNA (UT 1E B8 
译 区 中 . UTRdb 是 真 核 生 物 mRNA 的 5' 端 和 3’ 端 非 翻译 区 序列 
的 非 元 余数 据 库 ， UTRsite 搜集 这 些 非 翻译 区 序列 中 的 功能 片段 . 
此 网 页 还 提供 两 种 分 析 工 具 : ”UTRFasta 检查 用 户 提交 的 序列 是 否 
包含 UTRdb 中 的 序列 ， UTRScan 检查 用 户 序列 中 是 否 有 UTRsite 
中 的 片段 、 此 库 的 最 近 描 述 见 : 
G. Pesole 等 7 位 作者 、 Nucleic Acids Res. 28 (2000) 193 - 196. 
网 址 : 
http://bigarea.area.ba.cnr.it:8000/EmbIT/UTRHome/ 

R-263 ncRNA ， 似 mRNA 的 非 编 码 RNA 数据 库 . 描述 见 : 
V. A. Erdmann 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 197 - 200. 
网 址 : 
http://www.man.poznan.pl/5SData/ncRNA/index.htm]l 

R-264 RNAmods, RNA MAE, R6 m RNA 核 苷 酸 修 饰 的 清 
单 ， 最 初 以 书面 表格 形式 发 表 于 : 
P. A. Limbach, P. F. Crain, and J. A. McCloskey, Nucleic Acids Res. 
22 (1994) 2183 - 2196. 
此 库 是 该 文 数据 的 不 断 更 新 补充 。 较 近 情 况 见 ; 
J. Rozenski, P. F. Crain, and J. A. McCloskey, Nucleic Acids Res. 27 
(1999) 196 - 197. 
Kj: 
http://www-medlib.med.utah.edu/RNAmods/RNAmods.html 
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ftp://medlib.med.utah.edu (/library/RNAmods) 

R-265 AARSDB , WAE tRNA 4R (aminoacyl-tRNA synthetase) 数 
据 库 . 请 参看 : 
M. Szymanski, and J. Barciszewski, Nucleic Acids Res. 28 (2000) 326 
- 328. 
PIA: 
http://rose.man.poznan.pl/aars/index.html 

R-266 tRNA 序列 和 基因 、 结 构 与 功能 数据 库 。 请 参看 : 
M. Sprinzl 等 5 位 作者 ，“Compilation of tRNA sequences and se- 
quences of tRNA genes", Nucleic Acids Res. 26 (1998) 148 - 153. 
网 址 : 
http://www.uni-bayreuth.de/departments/biochemie/trna/ 

R-267 PLMItRNA ， 基 于 FastA [R-641] 89e & tti Vy (25 种 高 等 植物 和 
7 种 绿营 ) 线粒体 tRNA 分 子 和 tRNA 基因 的 数据 库 ， 包 括 tRNA 基 
因 多 序列 联 配 . 详 见 : 
V. Volpetti 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 159 - 162. 
网 址 : 
http://bio-www.ba.cnr.it:8000/srs6/ 
http://www.ebi.ac.uk/services/ 
http://bigarea.area.ba.cnr.it:8000/BioWWW/fasta.htm 

R-268 168MDB , 16S-likeMDB, 16S98MDBexp, 23SMDP,, 23S- 
likeMDB 和 2385MDBexp 数据 库 . ox de EE = MORS Seno e 
(Franklin and Marshall College) 生物 系 的 K. L. Triman 所 维护 的 一 
fit 16S 和 23S 核糖 体 RNA 突变 数据 库 ， 其 较 近 的 描述 匈 : 
K. L. Triman, A. Peister, and R. A. Goel, Nucleic Acids Res. 26 (1998) 
280 — 284. 
网 址 : 
http://www.fandm.edu/departments/ 

biology/databases/rna.html 

ftp://acad.fandm.edu (/nar/) 

R-269 RNA www, RNA 二 级 结构 网 页 ， 也 有 168 RNA 和 23S RNA 的 
数据 .描述 见 : 


~ NOP N 
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R. R. Gutel 等 ， Nucleic Acids Res. 21 (1993) 3055 — 3074; 22 (1994) 
3051 - 3054. 
网 址 ; 
http://pundit.colorado.edu:8080/RNA/ 
R-270 uRNADB , 已 经 联 配 好 的 、 加 有 注释 的 、 按 亲缘 关系 排列 的 uRNA 
序列 数据 ， 描 述 风 : 
C. Zwieb, Nucleic Acids Res. 25 (1997) 102 - 103. 
网 址 : 
http://psyche.uthct .edu/dbs/uRNADB/uRNADB . html 
R-271 U-insertion/deletion 编辑 序列 数据 库 ， 包 含 5 TEH HDA GU 
H (Kinetoplastida) 物种 的 线粒体 基因 和 编辑 后 的 mRNA 序列 。 描 
述 见 : 
L. Simpson, Nucleic Acids Res. 26 (1998) 170 — 176. 
FE BE: 
http://www.lifesci.ucla.edu/RNA/trypanosome/database.html 
R-272 PseudoBase, ， 假 扭 结 数据 库 . 自从 1985 年 发 现 RNA 二 级 结构 中 
的 假 握 结 (pseudoknot) 以 来 ， 文 献 中 已 有 不 少 关于 假 扭 结 的 报道 . 
1998 年 建立 的 PseudoBase 目的 即 在 于 汇总 这 方面 的 知识 ， 并 提供 一 
个 发 表 数 据 的 场所 .这 里 还 有 一 个 名 为 STAR 的 程序 ， 可 以 预测 基 
些 假 扭 结 .请 参看 : 
F. H. D. van Batenburg 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 
201 - 204. 
网 址 ; 
http://wwwbio.leidenuniv.nl/^Batenburg/PKB.html 
R-273 RDP ,核糖 体 数 据 库 计 划 (Ribosomal Database Project) 、， 包 含 小 
亚 基 (SSU) 和 大 亚 基 (LSU) 的 两 部 分 rRNA ， 由 已 联 配 和 未 联 配 的 
RNA 序列 以 及 亲缘 树 组 成 ， 详 见 : 
B. L. Maidak 等 12 位 作者 ， Nucleic Acids Res. 28 (2000) 173 - 174. 
网 址 : 
http://www.cme.msu.edu/RDP/ 
http://rdpwww.life.uiuc.edu/ 
ftp://rdp.life.uiuc.edu (/pub/) 
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mailto: serverOrdp.life.uiuc.edu 
北京 大 学 生物 信息 中 心 [R-166] f£ BE. 

R-274 GenCANS-RDP ， 这 是 把 原来 为 蛋白 质数 据 自 动 分 类 市 设计 的 
GenCANS(Gene Classification Artificial Neural System) 系统 ,推广 到 
RDP [R-273] 计划 中 rRNA 序列 而 得 到 的 分 类 .描述 见 ， 
C. Wu, and S. Shivakumar, Nucleic Acids Res. 22 (1994) 4291 - 4299. 
网 址 : 
http://diana.uthct.edu/^nih/cans/gencans rdp.html 

R-275 SSU rRNA ， 欧 洲 核糖 体 小 亚 基 RNA 结构 数据 库 . 描述 见 ， 
Y. Van de Peer 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 175 - 176. 
网 址 : 
http://rrna.uia.ac.be/ssu/ 
ftp://rrna.uia.ac.be (/pub/) 

R-276 LSU rRNA ， 欧 洲 核 糖 体 大 亚 基 RNA 结构 数据 库 . BER 
P. De Rijk 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 177 - 178. 
网 址 : 
http://rrna,uia.ac.be/1su/ 
ftp://rrna.uia.ac.be (/pub/) 

R-277 5S rRNA 数据 库 . 当前 版 本 包含 1 985 58 rRNA 及 其 基因 58 
rDNA 的 一 级 结构 ， 按 来 产物 种 分 类 .描述 见 ; 
M. Szymanski, M. Z. Barciszewska, J, Barciszewski, and V. A. Erd- 
mann, Nucleic Acids Res. 28 (2000) 166 - 167. 
网 址 : 
http://rose.man.poznan.pl/5SData/index.html 

R-278 DRC(Database of Ribosomal Crosslinks) ， HE Bl tk oc iE rdg e. A 
了 理解 翻译 过 程 ， 必须 闸 明 核糖 体 的 高 级 结构 . 本 数据 库 集 中 了 大 肠 
杆菌 rRNA 之 间 、 rRNA 与 核糖 体 蛋 白质 、 核 糖 体 蛋白 质 之 问 、 核 
糖 体 大 小 亚 基 之 间 等 各 种 层次 的 交 链 数据 。 清 参看 ， 
P. V. Baranov 等 5 位 作者 ， Nucleic Acids Res. 27 (1999) 184 . 185. 
网 址 : 
http://www.mpimg-berlin-dahlem.mpg.de/^ ag ribo/ 


ag-brimacombe/drc/ 
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由 于 是 德 俄 合 作 项 各， 在 莫斯科 还 存 -- 个 镜 象 点 ; 
http://ribosome.genebee.msu.su/DRC/ 

R-279 ACTIVITY, DNA 和 RNA 中 功能 位 点 数据 库 . 这 是 --- 个 分 布 
式 的 智能 库 ， 1999 IE HERO SS 1.1.5 版 共有 511 个 条 目 . 描述 见 : 
J. V. Ponomarenko 等 9 位 作者 ，Activity: a database for activities of 
functional DNA/RNA sites, in. Proceedings of BGRS'98, Novosibirsk, 
1998, 62 -- 65; 
以 及 [R-720] (9 9| xc. PS 3cEQ ap RP UE F iR. Fé: 
http://wwwmgs.bionet.nsu.ru/systems/Activity/ 

R-280 RNA 非 正 则 配对 数据 库 . 它 搜集 已 知 RNA Arp h nd dE is 
碱 基 配 对 。 描 述 匈 ， 
U. Nagaswamy, N. Voss, Z. D. Zhang, and G. E. Fox, Nucleic Acids 
Res. 28 (2000) 375 - 376. 
kg: 
http://prion.bchs.uh.edu/bp.type/ 
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R-281 RHdb ， 辐 射 人 杂交 数据 库 . 1999 年 7 月 的 第 16.0 版 包含 人 、 大 鼠 
和 家 鼠 三 个 物种 的 105 216 个 辐射 杂交 条 目 . 目前 每 夜 发 布 …… 次 进展 
报告 。 请 参看 : 

P. Rodriguez- Tome, and P. Lijnzaad. Nucleic Acids Res. 28 (2000) 
146. 

网 址 ， 

http://www.ebi.ac.uk/RHdb 
http://corbra.ebi.ac.uk/Rldb/species/HUMAN/gm99 . html 
ftp://ftp.ebi.ac.uk (/pub/databases/RHdb) 

北京 大 学 生物 信息 中 心 [R-166] fi HE. 

R-282 Mouse RH 数据 库 . Whitehead 生物 医学 研究 所 的 这 个 库 ， 包 括 
小 鼠 的 19 个 染色 体 和 X. 染色 体 的 辐射 休 交 数据 .网 址 : 
http://www-genome.wi.mit.edu/mouse.rh/ 


R-283 GDB ， 人 类 基因 组 数据 库 ， 是 使 用 较 多 的 一 个 重 吧 数据库， 这 想 
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原来 John Hopkins 大 学 (JHU) 医学 院 维 护 的 人 类 基因 组 数据 库 。 
1998 年 因 经 费 和 危机 险些 寿 终 ， 该 年 底 GDB 主 节 点 移 至 如 拿 大 多 伦 
多 儿童 蜂 院 生 特 信息 超级 计算 中 心 ， 数 据 库 的 审读 仍 在 JHU 进行 . 
GDB 是 人 类 基因 图 谱 和 疾病 的 数据 库 ， 目 的 在 于 支持 构建 人 类 某 因 
图 谱 和 测序 ， 请 参看 : 
S. I. Letovsky, R. W. Cottingham, C. J. Porter, and P. W. D. Li, 
Nucleic Acids Res. 26 (1998) 94 — 99. 
多 伦 多 儿童 医院 的 网 址 : 
http://www.bioinfo.sickkids.on.ca/ 
GDB 的 原 网 址 : 
http://wwa.gdb.org/ 或 
http://wwwgdb.gdb.org/ 
ftp://ftp.gdb.org 
仍 可 继续 使 用 . 全 世界 有 十 多 处 GDB 镜 象 点 中 国 镜 象 在 北京 大 学 
生物 信息 中 心 [R-166] ， 它 有 一 个 专用 网 址 : 
http://gdb.pku.edu.cn/gdb/ 
此 外 ， 请 参看 VIRGIL(R-321] 数据 库 . 

R-284 GeneMap'99 ， 人 类 基因 图 谱 1999 年 版 ， 册 国际 辐射 条 交 人 向 谱 协 
作 组 提供 ， 是 以 下 论文 的 更 新 的 电子 附录 ， 
P. Deloukas, Science 282 (1998) 744 - 740. 
Eg ht: 
http://wuw.ncbi.nih.gov/genemap/ 
自前 它 包 含 3 万 多 个 基因 位 点 . 纯 文 本 格式 的 人 类 基因 图 谱 99 可 出 
以 下 网 址 获取 : 
ftp://ftp.ebi.ac.uk {/pub/databases/RHdb/gm99 . map) 

及 -285 HuGeMap , AX 3E Dd 8t (5 PE i18 F0] EB P8 i 0 p CR CCS HE, 
提供 图 洪 的 相互 联系 和 视 象 化 表示 。 清 参看 : 
E. Barillot 2& 6 位 作者 ， Nucleic Acids Res. 27 (1999) 119 - 122. 
网 址 : 


http://wwu.infobiogen.fr/services/Hugemap/ 
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“大 类 基因 组 组 织 ” (HUGO) 促进 着 人 类 基因 组 计划 的 国际 合作 . 
实际 上 ， 计 划 的 主要 完成 者 是 美国 国家 卫生 署 和 能 源 部 支持 的 一 批 实验 
室 ， 以 及 英国 Wellcome Trust 支持 的 若干 研究 中 心 。 中 国 从 1999 年 9 月 
1 日 起 正式 承担 了 国际 人 类 基因 组 测序 任务 的 190, 也 就 是 第 3 号 染色 体 
上 3 000 万 碱 某 对 的 测定 ， 并 在 2000 Æ 6 J] 26 日 与 其 他 参加 国家 共同 
宣布 完成 了 人 类 基因 组 的 “工作 草图 ”. 


4.9.1 ”人 类 基因 组 测序 中 心 


关于 人 类 基因 组 计划 的 由 来 和 近况 ， 可 参看 中 文 文集 ， 

R-286 MAEN, (BEM. 人 类 基 氏 组 计划 和 后 基因 组 计划 》， 科 学 
出 版 社 ， 2000 . 

从 国际 上 气 个 主要 大 类 基因 组 计划 资助 机 构 的 网 页 ， 可 以 获知 该 计 
划 的 一 般 情 况 : 

R-287 HUGO 是 人 类 基因 组 组 织 (HUman Genome Organization) B9 48 
5. Ahk: 
http://hugo.gdb.org/ 

R-288 HUGO 的 太平 洋 部 分 有 一 个 网 页 设 丰 日 本 并 发 行 HUGO Pacific 
GENOME Newsletter 。 其 反映 中 国情 况 的 短文 在 : 
http://hugo-pacific.genome.ac.jp/3.2contents/china.html 
可 惜 内容 已 经 几 年 没有 更 新 了 . 

R-289 美国 能 源 部 支持 的 人 类 基因 组 计划 见 ， 
http://www.er.doe.gov/production/ober/hug top.html 

R-290 X ipd x D ^b 3554 AL 2S SE DO iE T ER. oS NHGRI Bl [S3 
人 类 基因 给 研究 所 (National Human Genome Research Institute) 体 
现 ， 其 网 址 是 : 
http://www.nhgri.nih.gov/ 

R-291 英国 Wellcome Trust 是 人 类 基因 组 计划 的 另 一 个 主要 资助 者 。 网 
址 ; 


http://uww.wellcome.ac.uk/ 


104 第 4 各 生物 信息 数据 应 


任何 政府 资助 均 源 于 纳税 人 的 责 献 ， 必 须 造 福 整 个 社会 ， 而 不 容许 
局 商业 集团 的 利益 混 少 .在 困 际 人 类 基因 组 洁 划 中 ， 这 清楚 表述 在 1996 
年 2 月 在 百慕大 举行 的 第 一 帮 人 类 基因 组 测序 战略 会 议 遂 过 的 百慕大 原 
WP: 测序 的 中 间 和 最 终结 果 都 必须 迅速 公开 . 
R-292 百 募 大 原则 参见 : 
http://www.gene.ucl.ac.uk/hugo/bermuda.html 
欧洲 EMBL 数据 库 [R-211] 专门 为 此 建立 了 HTG Bf High- Through- 
put Genome 部 分 ， 存 放 各 种 基因 组 大 规模 测序 的 中 间 结 果 ， 以 利于 各 个 
测序 中 心 和 的 交流 与 合作 。-- 遇 完成 注释 ， 叶 移入 EMBE 的 相应 门类 ， 并 
从 HTG 中 取消 .美国 NCBI [R-134] 的 htgs 序列 库 也 起 着 同样 的 作用 . 

事实 上 ， 人 类 基因 的 各 种 片段 构成 多 种 数据 库 的 主要 部 分 。 本 节 注 
重 与 人 类 基因 组 计划 有 关 的 库 . TESEDGQERHÉ. MAZA, ZE, Wu. A 
疫 等 各 节 中 都 还 有 大 量 大 类 基因 数据 . 

R-293 世界 上 主要 人 类 基因 组 测序 中 心 的 和 名单 见 : 
http://www-hgc.lbl.gov/inf/HGcenters.html 
http://www.ornl.gov/hgmis/centers.html 
fT MCITCPDHEDAERUBER RUNE EE, MARED., de 46 按照 

染色 体 编导， 列举 了 某 些 教 据 所 在 网 址 . 随 着 人 类 某 因 组 工作 章 几 的 完 
成 ,各 个 基 拓 组 中 心 正 在 调整 他 们 的 数据 库 . 因此 ， 这 里 提供 的 网 址 会 有 
不 少 变动 。 清 特别 注意 几 个 大 的 测序 中 心 的 网 页 ， 例 如 : 


R-294 NCBI [(R-134] 的 GenBank 数据 库 [R-212] 从 1999 年 10 月 起 ， 建 
TRA (Homo sapiens) 基因 组 子 自 录 ， 其 下 按 数 色 体 编 甘 设 子 县 
sx. 网 址 : 
http://ncbi.nlm.nih.gov/genbank/genomes/H sapiens/ 

R-295 英国 的 Sanger 中 心 的 人 类 基因 组 计划 了 网 页 ， 不 仅 有 它们 负责 测序 
的 染色 体 数据 ， 还 有 到 其 他 染色 体 数 据 的 链接 . Khi. 
http://www.sanger.ac.uk/HGP/ 

R-296 日 本 的 DDBJ [R.-213] 和 信息 生物 学 中 心 (Center for Information 
Biology ， 莘 称 CIB) 联合 建立 了 一 个 HUman Genomics Studio, 可 
以 按 染 色 体 编号 检索 和 查找 基因 序列 ， 网 址 : 
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http://studio.nig.ac.jp/ 


此 外 ， 第 22 号 和 第 21 号 染色 体 的 基本 部 分 ， 即 常 染 色 质 {euchro- 
matin) 的 序列 ， 已 经 在 1999 年 12 月 和 2000 年 5 月 发 表 ， 参 见 : 
R-297 I. Dunham 等 217 位 作者 ， “The DNA sequence of human chromo- 
some 22", Nature 402 (1999) 489 - 195. 
R-298 第 22 号 染色 体 图 谱 和 测序 协助 组 ， 以 及 M. Hattori 等 63 位 作者 ， 
“The DNA sequence of human chromosome 21", Nature 405 (2000) 
311 - 319. 


R-299 Sanger 中 心 是 世界 上 最 大 的 DAN 测序 中 心 之 一 CREA X 
基因 组 计划 三 分 之 ~--、 即 10 亿 威 基 对 的 测序 任务 ， 以 及 -- 些 其 他 物 
种 的 测序 .大 类 基因 组 测序 集中 在 以 下 各 染色 体 1, 6. 9. 10. 
13、20 、22 和 X. 上 月 前 其 测序 进展 统计 每 20 分 钟 自 动 喝 新 一次， 
参见 : 
http://www.Ssanger.ac.uk/HGP/stats.shtml 

R-300 LBNL , Lawrence Berkeley 国家 实验 室 ， 其 人 类 基因 测序 部 ， 钢 
在 是 联合 基因 组 研究 所 JGIL [R-303) 的 一 部 分 ， 网 址 : 
http://www-hgc.lbl.gov/GenomeHome.html 

R-301 LLNL , Lawrence Livermore 国家 实验 室 ， 其 生物 学 与 生物 技术 赋 
究 计 划 (Biology and Biotechnology Research Program ， 简 称 BBRP) 
完成 了 第 19 号 染色 体 的 饥 分 辨 率 、 可 用 以 测序 的 图谱 ， 其 与 华 胡 频 
大 学 、 Merck 公司 等 合作 单位 组 成 的 LM.A.G.E. 协作 组 314] , 
拥有 目前 最 大 的 、 已 测序 的 cDNA 克隆 . 网址 : 
http://www-bio.llnl.gov/bbrp/genome/genome.htmi 

R-302 LANL ， 美 国 洛 斯 阿拉 葛 斯 国家 实验 室 ， 其 人 类 基因 组 研究 中 心 
(Center for Human Genome Studies ， 简 称 CHGS), EZM PP 16 
号 染色 体 的 图 谱 和 测序 ， 网 址 : 
http://www-ls.lanl.gov/index.html 

R-303 JGI , Hi Ed iE IEF A, (KTiE LBNL [R-300].. LLNL [R-30i] 
和 LANL [R-302] 三 个 国家 实验 室 的 人 类 基因 组 研究 部 {1 组 建 的 联 
合 基 因 组 研究 所 (Joint Genome Institute). € F 1999 年 1 Jj IE 3X fi 
用 强大 的 高 产 出 测序 设备 , 目标 是 产生 高 质量 的 序列 ,足以 区 .分 单 核 
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染色 体 ”网址 
1 http://linkage.rockefeller/chri/ 
bttp://www«.sanger.ac.uk/HGP/Chr1/ 


2 http://wsw.sanger.ac.uk/HGP/Chr2/ 

3 bttp://mars.uthscea.edu/ 
http-//www.genomics.org.cn/ 

4 bttp://www.sanger.ac.uk/HGP/Chr4/ 

5 http://wvu.jgi.doe.gov/ 

6 http://www.sanger.ac.uk/HGP/Chr6/ 

7 http://wwwe.genet.sickkids.on.ca/chr7Tdb/ 

8 http://gc.bcm.tmc.edu:8080/chr8/home.html 

9 http://wwu.gene.ucl.ac.uk/chr9/ 
http: //www.sanger.ac.uk/HGP/Chr9/ 

10 http://wwv.cric.com/btdocs/chriO-mapping/ 
http://wws.2anger.ac.uk/HGP/Chr10/ 

11 bttp://chril.bc.ic.ac.uk/ 
http: //mcdermott.sumed.edu/datapage/ 
http://shows.med.buffalo.edu/database.hntagl 

12 http://paella.med.yale.edu/chri2/home.html 

13 http://genomel.ccc.columbía.edu/^ genome/ 
http://www . sanger . ac .uk/HGP/Chr13/ 

14 bttp://wwe.sanger.ac.uk/HGP/Chri4/ 

15 hbttp://www.5&nger.ac.uk/HGP/Chri5/ 

16 bttp://www.jgi.doe.gov/ 
http://vwu.tigr.org/tdb/humgen/ciG.html 

17 http://bioinformatics.veizmann.ac.il/ 

18 http://wwe.sanger.ac.uk/HGP/Chri8/ 

19 http://www.jgi.doe.gov/ 
bttp://wgw-bio.llnl.gov/bbrp/genome/genome.html 

20 http://wuw.expasy.ch/cgi-bin/lists?Thumchr2O.txt 


bttp://www.sanger.ac.uk/HGP/Chr20/ 
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染色 体 "Mh sn 
21 http://www.expasy.ch/cgi-bin/lists?humchr21.txt 

http://www-eri.uchsc.edu/chr21/welcome.html 
http://www.cephb.fr/chromosome21.html 

22 http://wv4.cbíl.upenn.edu/HGC22.html 
http://uwsé.expasy.ch/cgi-bin/lists?humchr22.txt 
http://ww«a.sanger.ac.uk/hum22/  /HGP/Chr22/ 
http://wwv.genome.ou.edu/gifs/ 

X http: //gc.bcm.tmc.edu:8080/chrX/home.html 
http://wwv.expasy.vh/cgi-bin/lists?humchrx.txt 
http://www.sanger.ac.uk/HGP/ChrX/ 

Y http://wwu.expasy.ch/cgi-bin/lists?humchry.txt 

线粒体 —nhttp://infinity.gen.emory.edu/mitomap.html 


苷 酸 多 态 性 和 测序 错误 ， 区 分 功能 基因 和 假 基 因 等 。 人 类 基因 组 测 
序 集中 在 第 5、 16 和 19 号 染色 体 ， 网址 : 
http://jgi.doe.gov/ 

R-304 UWGC , 华盛顿 大 学 基因 中 心 , 是 国际 上 最 活跃 的 测序 中 心 之 一 . 
正在 进行 的 工作 包括 人 类 第 7 号 染色 笨 ， 人 和 白细胞 抗原 HLA 第 一 类 
AAE, KE TAR oa 区 ， 以 及 绿 脓 假 单 胞 菌 (Pseudomonas 
aeruginosa) 的 图 谱 和 测序 . 这 里 有 不 少 与 测序 有 关 的 软件 , 如 Phrap 
[R-691] ， RepeatMasker [R-748] 等 。 网 址 : 
http://www.genome.washington.edu/ 
ftp://ftp.genome.washington.edu/ 

R-305 SHGC ， 斯 坦 福 大 学 人 类 基因 中 心 ， 主 要 做 高 分 辨 率 辐 射 杂交 图 
谱 ， 以 及 人 类 第 4 号 染色 体 BAC 克隆 的 测序 . 网 址 : 
http://www-shgc.stanford.edu/ 

R-306 美国 哥伦比亚 大 学 基因 中 心 . 主要 研究 和 人 类 疾病 有 关 的 基因 和 第 
13 号 染色 体 图 谱 . Pohl. 
http://genomelil.ccc.columbia.edu/"genome/ 
http://genome3.cpmc.columbia.edu/^legion/ 

R-307 GÉNÉTHON ， 法 国人 类 基因 组 研究 中 心 。 网址 : 
http://www.genethon.fr/genethon.en.html 
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GenBank[R-212]. EMBL[R-211]]. GSDB[R-214] 、 GDBIR-283] 
等 综合 数据 库 的 主要 内 容 都 来 自 人 .下面 再 列举 一 批 与 人 类 基因 组 有 关 
的 数据 库 . 

R-308 UniGene ， 人 类 基因 序列 集合 ， 搜 集 了 GenBank [R-212] 中 不 同 
基因 产物 的 序列 。 描 述 见 ， 

M. S. Boguski, and G. D. Schuler. Nature Genetics 10 (1995) 369 - 
311. 

可 通过 NCBI [R-134] 的 网 页 访问 : 
http://www.ncbi.nlm.nih.gov/UniGene/ 

R-309 HIB(Human Info Base) 数据 库 ， 是 德国 人 类 基因 组 计划 中 基因 分 
析 项 自 所 建立 的 自动 注释 的 基因 集团 数据 库 . 网 址 : 
http://www.mips.biochem.mpg.de/proj/human/ 

它 的 原始 数据 来 自 UniGene [R-308] ， 而 软件 工具 是 CAP3 (R-692] 
fü PEDANT [R-755] 。 详 情 请 参阅 网 址 : 
http://www.mips.biochem.mpg.de/desc/human/ 


通常 把 导致 不 同 表现 型 或 疾病 的 碱 基 改 变 称 为 突变 (mutation) , ti 
不 引起 表现 型 或 病变 的 称 为 多 态 性 (polymorphism)? . yr AM $5 dr 
ME Et (Single Nucleotide Polymorphism ， 简 称 SNP) 对 于 人 类 遗传 学 
研究 有 重要 意义 , 于 是 出 现 相 应 的 数据 库 . 目前 至 少 有 4 个 SNP 数据 库 : 
R-310 dbSNP ， 设 在 美国 国家 生物 技术 信息 中 心 NCBI [R-134] 的 单 核 
FRESE, 收录 单 核 苔 酸 置 换 , 以 及 短 的 删除 和 搬入 所 镶 致 
的 多 态 性 .请 参看 : 
E. M. Smigielski, K. Sirotkin, M. H. Ward, and S. T. Sherry, Nucleic 
Acids Res. 28 (2000) 352 - 355. 
网 址 ; 
http://www.ncbi. nim. nih.gov/SNP/ 
R-311 Whitehead 研究 所 WI [R-157] 的 人 类 单 核 彰 酸 多 态 性 (SNP) 数据 
FE. 这 是 与 Affymetrix 公司 [R-801] 等 合作 进行 的 项 目 。 见 : 
http://www-genome.wi.nit.edu/SNP/human 


??Polyinorphism HEARANN, ATAS FEM ETER diversity . 
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R-312 HGBASE 是 人 类 的 双 等 位 基因 序列 (Human Genic Bi-Allelic SE- 
quences) 的 缩写 . 这 是 人 类 基因 从 启动 子 到 转录 终点 ， 即 基因 及 其 前 
ERRENA PRERE SH 和 其 他 变化 的 数据 库 。 这 不 是 一 个 
基因 突变 库 ， 而 是 “正常 ”人 基因 序列 变异 的 目录 . CRR FRE 
基因 SNP ,诸如 启动 子 和 非 沉 默 密 友子 (non-silent codon) 变异 、 内 
含 子 变异 等 也 包括 在 内 、2000 年 2 月 7 日 的 第 6 版 包含 6688 条 基 
因 内 多 态 性 记录 .请 参看 ， 

A. J. Brookes 等 8 位 作者 ， Nucleic Acids Res. 28 (2000) 356 - 360. 
网 址 : 

http://hgbase.interactiva.de/ 

http://hgbase.cgr.ki.se/ 

R-313 位 于 St. Louis 的 华盛顿 大 学 的 SNP 数据 库 ， 网 址 : 
http://www.ibc.wustl.edu/SNP/ 


cDNA 克隆 和 BAC PHil 5$, TEXCISUECEEDR LN FE TE XU] pote d dE dE 
用 .这 里 列举 一 些 有 关 阅 址 ， 

R-314 I.M.A.G.B 协作 组 , 其 名 称 缩 写 来 自 Integrated Molecular Analysis 
of Genomes and their Expression .他们 共享 高 质量 的 cDNA 克隆 库 ， 
并 把 有 关 序 列 、 图 谱 和 表达 数据 公开 .请 参考 长 篇 介绍 : 
G. Lenon, C. Auffray, M. Ploymeropoulos, and M. B. Soares, Genomics 
33 (1996) 1 — 152. 
LM.A.G.E 的 网 址 : 
http://www-bio.llnl.gov/bbrp/image/image.html 
LM.A.G.E 的 克隆 识别 号 (ID) EWES NHEEPEA Hb, RE DE 
项 下 ， 或 在 性 状 表 的 /clone— 之 后 。 这些 ID 可 从 NCBI [R-134] 的 
dbEST [R-236] 数据 库 获取 , 也 可 用 一 个 名 为 LENS 的 浏览 器 查找 ， 
http://agave.humgen.upenn.edu/1lens/ 
如 果 需 要 把 LM.A.G.E 克隆 ID 换 成 克隆 名 字 ， 可 以 借助 : 
http://www .hgmp.mrc.ac.uk/BIO/translate/ 

R-315 ATCC, Žž HA f RRP O (American Type Culture Collection) , 
它 提供 包括 cDNA 克隆 库 在 内 的 各 种 生物 学 各 分子 生 物 学 试剂 和 材 
H. 这 虽然 不 是 一 个 生物 信息 学 资源 , 但 在 文献 中 时 有 提 及 . AUC, 
我 们 给 出 网 址 : 
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http://www.atcc.org/ 

R-316 GenMapDB, V. Cheung [R-783] 实验 室 维护 的 一 个 人 类 BAC 图 
谱 数 据 库 . 它 以 1Mbp 的 间距 覆盖 了 人 类 第 2, 14, 15, 16, 17, 18, 19, 
20,21, 22, X 40 Y 等 染色 和 体 的 BAC 克隆 ， 在 1999 年 初 总 长 度 达 到 
1 156Mbp fejht. 
http://w95vcl.neuro.chop.edu/vcheung/ 

R-317 BAC Ends, AX BAC 末端 数据 库 。 BAC 末端 序列 可 提供 高 度 
特异 的 标记 ， 对 基因 组 测序 有 重要 作用 (A 3.6.5 DERE). FX 
BAC Ends 数据 库 请 参看 : 

S. Y. Zhao, Nucleic Acids Res. 28 (2000) 129 — 132. 

网 址 : 

http://www.tigr.org/tdb/humgen/bac end search/ 
ftp://ftp.tigr.org (/pub/data/h.sapiens/bac.ends.sequences) 

R-318 HUGE ， 人 类 未 经 实验 证 实 的 编码 (Human Unidentified Gene-En- 
coded) 基因 的 数据 库 . 这 是 由 日 本 Kazusa DNA 研究 所 cDNA 测序 
计划 所 确定 的 、 尚 未 经 实验 证 实 的 编码 人 类 大 蛋白质 的 基因 数据 的 
集合 .请 参看 : 

R. Kikuno 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 331 - 332. 
网 址 ; 
http://www.kazusa.or.jp/huge/ 

R-319 IXDB ， 集 成 的 人 类 X 染色 体 物 理 图 谱 数 据 库 。 数 据 来 自 其 他 数 
据 库 、 文 献 和 直接 投稿 。 请 参看 : 

U. Leser, H. Roest Crollius, H. Lehrach, and R. Sudbrak, Nucleic Acids 
Res. 27 (1999) 123 - 127. 

网 址 : 

http://ixdb.mpimg-berlin-dahlem.mpg.de/ 

R-320 Genotype ， 法 国人 类 多 态 性 研究 中 心 (Centre d'Etude du Poly- 
morphisme Humain ， 简 称 CEPH) 的 基因 型 数据 库 。 它 搜集 人 类 染 
色 体 联 锁 图 谱 (linkage mapping) 中 已 定型 的 遗传 标记 的 基因 型 .请 
参看 : 

J. C. Murray 等 27 位 作者 、 “A comprehensive human linkage map 
with centimorgan density", Science 265 (1994) 2049 - 2054. 
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1998 年 12 月 的 Genotype 数据 库 第 8.2 版 包含 11 995 个 遗传 标记 ， 
包括 9000 多 个 微 卫 星 标记 ， 其 中 5775 是 高 度 多 态 的 。 CEPH 数据 
库 总 共 包 含 250 万 条 以 上 基因 型 . 库 的 网 址 : 
http://www.cephb.fr/cephdb/ 

R-321 VIRGIL, 专门 为 GDB [R-283] 中 的 人 类 基因 和 GenBank [R-212] 
中 的 DNA 序列 提供 对 应 链接 关系 的 数据 库 , 与 GenBank 同步 更 新 . 
请 参看 : 

F. Achard, G. Vaysseix, P. Dessen, and E. Barillot, Nucleic Acids Res. 
27 (1999) 113 — 114. 

原始 网 址 在 法 网 INFOBIOGEN [R-148] : 
http://www.infobiogen.fr/services/virgil/HPvirgil.html 
ftp://ftp.infobiogen.fr (/pub/db/virgil/virgil.ffl) 
北京 大 学 生物 信息 中 心 [R-166] AAR. 

R-322 KinMutBase ， 人 类 致 病 蛋 白质 激酶 突变 数据 库 . 请 参看 : 

K. A. E. Stenberg, P. T. Riikonen, and M. Vihinen, Nucleic Acids Res. 
28 (2000) 369 - 371. 

网 址 : 

http://www.uta.fi/imt/bioinfo/KinMutBase/ 

R-323 CpGlsle, ,人 类 基因 中 CpG 岛 数据 库 . CpG 岛 是 指 在 同一 条 DNA 
链 中 相 邻 的 CG ， 写 成 CpG 以 有 别 于 双 链 间 的 CG 配对 。 CpG 中 
的 CC 容易 被 甲 基 化 人 政 饰 而 产生 CT 突变 . 因此、 哺乳 动物 基因 组 
中 CpG 明显 少 于 GpC . 这 可 以 作为 在 DNA 序列 中 寻找 基因 的 一 
种 参考 。 BA. 

A. Bird, "CpG islands as gene markers in the vertebrate nucleus", 
Trends in Genetics 3 (1987) 342 - 347. 

CpGlsie 数据 库 基于 对 EMBL (R-211] 数据 库 中 所 有 人 类 基因 和 假 基 
因 的 分 析 ， 这 包括 含有 全 部 外 显 子 的 完整 基因 序列 、 也 包括 部 分 测 
序 但 外 显 子 全 部 确定 而 且 至 少 有 一 个 片段 长 于 2 000 个 核 苷 酸 的 序 
列 。 短 于 2 000 的 完整 基因 也 做 了 分 析 . 第 一 个 外 显 子 未 知 或 5 端 
少 于 200 的 序列 均 排除 古 外 .请 参看 : 

F. Larsen, G. Gundersen, R. Lopez, and H. Prydz, Genomics 13 (1992) 
1095 - 1107. 
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网 址 : 
ftp://bioslave.uio.no (/cpgisle/) 
ftp://ftp.infobiogen.fr (/pub/db/cpgisle/) 
ftp://ftp.ebi.ac.uk (/pub/databases/cpgisle) 
北京 大 学 生物 信息 中 心 [R-166] 有 镜 象 . 
人 类 肿瘤 抑制 基因 p53 因 其 产物 分 子 量 为 53kD 而 得 名 ， 它 的 位 点 
在 17p13. 约 有 半数 癌症 与 p53 突变 有 关 . FIBRE JL RR p53 突变 数据 库 ， 
R-324 p53 数据 库 ， 建 于 1991 年 。 这 是 研究 人 类 肿瘤 及 肿瘤 细胞 系 p53 
基因 突变 的 数据 库 和 软件 ， 实 际 上 由 4 个 数据 库 组 成 p53 库 、 体 
细胞 突变 库 、 种 系 突 变 库 和 细胞 系 突 变 库 .详情 请 参看 : 
C. Béroud, and T. Soussi, Nucleic Acids Res. 26 (1998) 200-204. 
网 址 : 
http://perso.curie.fr/tsoussi/ 
相应 软件 在 网 页 上 运行 。 需 要 数据 库 和 软件 在 本 地 计算 机 上 运行 的 
学 者 ， 请 与 作者 联系 : 
mailto: thieryy.soussi@curie.fr 
或 
mailto: beroudÓceylan.necker.fr 
R-325 IARC p53 数据 库 . 法 国 国际 癌症 研究 会 (International Agency for 
Research on Cancer ， 简 称 IARC) 的 肿瘤 和 细胞 系 p53 基 拓 突变 数 
据 库 ， 和 包括 可 视 化 工具 .此 库 的 描述 见 : 
P. Hainaut 等 8 位 作者 ， Nucleic Acids Res. 26 (1998) 205-213. 
网 址 : 
http://wuw.iarc.fr/p53/homepage.html 
http://www.ebi.ac.uk/ (经 services 进入 db 进入 IARC p53) 
ftp://ftp.ebi.ac.uk (/pub/databases/p53/) 
R-326 p53 数据 库 . RAIE ERKA p53 种 系 突变 数据 库 . 请 参看 : 
Z. Sedlacek, R. Kodet, A. Poustka, and P. Goetz, Nucleic Acids Res. 
26 (1998) 214 - 215. 
网 址 : 
http://www.lf2.cuni.cz/projects/germline.mu.p53.htm 
ftp://ftp.lf2.cuni.cz (/pub/doc/medical/) 
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北 卡 罗 林 纳 大 学 的 Neal F. Cariello 等 人 维护 着 包括 p53 在 内 的 四 个 
突变 数据 库 : 
R-327 人 类 p53 基因 突变 库 及 软件 ， 可 从 以 下 网 址 下 载 : 
http://metalab.unc.edu/dnam/des.p53.htm 
R-328 人 类 hprt BB 7X & Rn? S UR DP E A 5E $6 EIE (hypoxanthine gua- 
nine phosphoribosy! transferase) 基因 突变 数据 库 和 在 PC RA Fi 
行 的 分 析 软 件 。 其 新 版 包含 2 500 多 突变 ， 须 向 作者 订阅 ; 
mailto: cariello@sunsite.unc.edu 
但 在 以 下 网 址 的 较 旧 版 本 可 自由 下 载 ， 
http://metalab.unc.edu/dnam/des hprt .htm 
R-329 转基因 吵 齿 动物 Lac] 数据 库 ， 可 从 以 下 网 址 下 载 : 
http://metalab.unc.edu/dnam/des.laci.htm 
R-330 ftd Bimirür fg LacZ 突变 库 ， 可 从 以 下 网 址 下 载 : 
http://metalab.unc.edu/dnam/des lacz.htm 
以 上 四 个 数据 库 及 相应 软件 的 较 近 描述 见 : 
R-331 N. F. Cariello 等 6 位 作者 ， Nucleic Acids Res. 26 (1998) 198. 
R-332 WT1 ， 基 因 突 变数 据 库 及 分 析 软 件 . 在 人 类 染色 体 11p13 区 域 的 
WTI 基因 , 编码 一 种 含 锌 指 结 构 的 转录 因子 , 后 者 与 胚 性 癌 肉 瘤 CHE 
尔 姆 斯 痛 ， Wilms’ tumor) 有 关 。 数 据 库 和 软件 的 描述 见 ， 
C. Jeanpierre, C. Baroud, P. Niaudet, and C. Junien, Nucleic Acids 
Res. 26 (1998) 271 -- 274. 
需要 此 库 者 应 与 引文 第 一 作者 联系 : 
mailto: jeanpierre@necker.fr 
R-333 WRN 基因 突变 与 遗传 病 Werner 综合 征 有 关 ， 它 导致 少年 早衰 . 
WRN 基 关 突变 、 多 态 性 和 文献 均 收 录 在 此 网 址 : 
http://www.pathology.washington.edu/werner/ws-wrn.html 
R-334 LDL, AX LDL 受 体 基因 突变 数据 库 和 分 析 软 件 。 描 述 见 : 
M. Varret 等 6 位 作者 ， Nucleic Acids Res. 25 (1997) 172 - 181. 
R-335 OMIM , ERA X d iR Rie (Online Mendelian Inheritance in 
Man) 数据 库 ， 是 从 1963 年 开始 的 使 用 计算 机 管理 的 库 发 展 起 来 的 
网 络 数据 库 . 它 搜集 人 类 正常 基因 和 基因 失常 的 信息 , 除 电 子 数据 库 
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Fb. SER JLF E ER B: 

V. A. McKusick, Mendelian Inheritance in Man, John Hopkins Univer- 
sity Press, 1966, 1968, 1971, 1975, 1978, 1983, 1988, 1990, 1992, 1994, 
1998. 

网 址 : 

http://www3.ncbi.nlm.nih.gov/omim/ 

北京 大 学 生物 信息 中 心 [R-166] AWR. 

R-336 STACK , 南非 国家 生物 信息 中 心 SANBI [R-154] 维护 的 一 个 序列 
标记 联 配 和 代表 序列 知识 库 (Sequence Tag Alignment and Consensus 
Knowledgebase), K S MEAT ZAG 知 的 EST 片段 ， 尽 可 能 
地 提取 大 类 基因 组 中 已 表达 基因 的 序列 ， 对 每 个 基因 提供 一 组 仔细 
拼接 起 来 的 代表 序列 . 2000 年 初 STACK EHA 94 000 条 3 端 序 
列 . 这 里 还 有 一 个 软件 工具 stackPACK 和 供 学 术 界 做 标定 用 的 人 类 
EST 序列 文件 benchmark10000.seq 。 所 有 学 术 性 单位 都 可 以 自由 下 
载 这 些 软 件 和 文件 。 网址， 
http://wwu .sanbi.ac.za/Dbases.html 

R-337 SANIGENE 是 与 STACK [R-336] 密切 相关 的 一 个 数据 库 ， 它 包 
含 所 有 经 过 计算 机 处 理 联 配 过 的 人 类 基因 EST 的 集团 ， 每 个 集团 中 
的 序列 至 少 带 有 了 两 个 重重 的 EST 以 便 形 成 代表 序列 .代表 序列 的 质 
量 要 求 是 至 少 应 有 9976 的 残 基 匹 配 ， SANIGENE 库 中 没有 单个 的 
EST. 请 参阅 STACK [R-336] 数据 库 的 网 址 . 
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本 节 重 点 是 各 类 物种 的 完全 基 央 组 或 完整 染色 体 序 列 的 数据 库 . 各 个 
物种 基因 组 的 大 小 , 可 以 用 实验 方法 粗 估 . 相应 数据 可 以 在 下 面 的 DOGS 
数据 库 中 查 到 : 

R-338 DOGS ,基因 组 尺寸 数据 库 (Database Of Genome Sizes) , 网址， 
http://www.cbs.dtu.dk 


应 当 特 别 指 出 ， 美 国 GenBank [R-212] 的 /genomes/ 子 目录 从 1999 
年 10 月 起 ， 做 了 大 幅度 的 扩充 . 目前 已 开辟 了 人 、 家 鼠 、 果 蜗 、 线 虫 、 
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色 体 以 及 其 他 长 DNA 序列 .北京 大 学 生物 信息 中 心 [R-166] 已 经 备 有 此 

目录 的 副本 ， 见 [R-339] . 

R-339 GenBank [R-212] 的 /genomes/ THÈ: 
ftp://ftp.cbi.pku.edu.cn (/pub/databases/genbank/genomes/) 
关于 真 核 生 物 基 因 的 综合 知识 ， 请 参看 印第安 那 大 学 的 euGenes 数 

据 库 : 

R-340 euGenes ， 真 核 生 物 基因 综合 知识 库 、 目 前 包 拓 路 蝇 、 人 、 小 鼠 ， 
拟 南 芥 、 线虫 酵母 和 竹马 鱼 的 数据 . 网址; 


http://iubio.bio.indiana.edu/eugenes/) 


4.10.1 原核 生物 基因 组 


原核 生物 的 基因 组 测序 ， 集 中 在 病原 和 模式 生物 .截至 2000 年 8 月 
初 , 已 经 有 32 个 完全 基因 组 数据 保存 在 GenBank 的 /genomes/bacteria/ 
子 目录 下 . 这 些 完 全 基因 组 的 大 小 和 由 计算 机 预测 的 蛋白 质 或 开放 读 杖 
数目 列举 在 表 4.7 中 . 此 外 ,还 有 十 元 个 基因 组 己 经 完成 测序 ， 正 在 进行 
注释 ， 正 式 发 表 之 日 相应 数据 库 就 会 对 公众 开放 ， 70 个 基因 组 于 在 进行 
测序 。 细 菌 基因 组 计划 的 进展 情况 ， 可 随时 从 以 下 网 址 查询 : 
R-341 http://www.ncbi.nlm.nih.gov/PMGifs/Genomes/bact .html 


对 于 许多 尚未 完成 测序 和 公开 发 表 的 网 菌 基 扶 组， 通常 也 可 以 从 有 关 测 
序 中 心 获取 不 带 注释 的 原始 序列 . 为 此 可 参看 EBI [R-131] 的 每 周 更 新 的 
基因 组 测序 进展 表 MOT[R-342] 和 日 本 DDBJ 的 GIB [R-343] : 

R-342 MOT ， 欧 训 生 物 信息 研究 所 EBI [R-131] 的 基因 组 测序 进展 表 
(Genome Monitoring Table) ， 每 周 更 新 ， 网 址 : 
http://www.ebi.ac.uk/^sterk/genome-MOT/ 

R-343 GIB ， 日 本 DDBJ [R-213j 设立 的 Genome Information Broker for 
microbial genomes 的 缩写 . 这 是 按 物 种 组 织 的 微生物 基因 组 信息 网 
页 。 网址 : 
http://mol.genes.nig.ac.jp/gib/ 

R-344 MAGPIE 测序 计划 清单 也 可 以 参考 . CIERTA, [HOENDUD ERE 
时 . BERE: 
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http://www-fp.mcs.anl.gov/ gaasterland/genomes.html 
AER EMGUib 数据 血 也 反映 一 些微 生物 基因 组 的 综合 数据 . 

R-345 EMGLib ， 增 补 微 生物 基因 组 库 (Enhanced Microbial Genomes Li- 
brary) ， 它 反映 细菌 和 醇 母 的 完全 基因 组 . 详 见 : 

G. Perriere, P. Bessieres, and B. Labedan, Nucleic Acids Res. 28 

(2000) 68 - 71. 

网 和 让: 

bttp://pbil.univ-lyoni.fr/emglib/emglib.html 

美国 能 源 部 支持 的 微生物 基因 组 计划 ， 在 完成 了 最 初 确定 的 生殖 道 
支原体 、 甲 烷 球 菌 .、 热 自 养 甲 烷 菌 和 次 烁 古 生 球菌 之 后 ， 又 增加 了 与 全 球 
二 氧化 碳 循 环 有 关 的 四 个 细菌 . 

下 面 从 模式 细菌 开始 ， 介 绍 一 批 各 个 物种 的 基因 组 或 基因 隐 谱 数据 
BE. 

大 肠 杆 菌 (Escherichia coli [R-92]) 是 研究 得 最 多 的 模式 生物 .下 面 
列举 一 些 与 它 有 关 的 数据 库 . 

R-346 XRHG fF KI12 菌株 的 完全 基因 组 序列 ， 可 由 GenBank fT Ho 
/genomes/ [R-339] 获取 ， 或 从 华 故 顿 大 学 大 肠 杆菌 基因 组 中 心 ， 即 
Blattner 实验 室 的 网 页 读 取 : 
http://www.genetics.wisc.edu/pub/sequence/ 

K-12 菌株 完全 基因 组 的 报告 见 : 
F. R. Blattner 等 17 位 作者 ， Science 277 (1997) 1453 -- 1462. 

日 本 DDBJ [R 213) P A X Ig FT Hé 53 — A LED ZEE AF RA 
ftp://monet.genes.nig.ac.jp (/data/ecoli/4.64M.seq.Z) 
R-347 ECDC ， 大 上 肠 杆 菌 菌株 K12 的 基因 序列 库 、 包 括 基 要 、 读 椎 、 调 

控 区 、 启 动 子 、 终 止 子 、 tRNA 和 rRNA 等 .描述 见 ; 

R. Wahl, and M. Kroeger, Microbiol. Res. 150 (1995) 7 -61. 
另 一 个 类 似 的 库 ECD 已 被 ECDC 取代 . ECDC 的 网 址 : 
http://susi.bio.uni-giessen.de/ecdc/ecdc.html 
ftp://ftp.ebi.ac.uk (/pub/databases/ecdc) 

R-348 EcoGene 和 EcoWeb , A Ee FEE K12 菌株 基因 组 数据 库 ， 包 括 基 
因 、 伺 白质、 基因 间 区 域 ,， 以 及 蛋白 质 维 信 息 . 事实 上 ， 它 已 经 发 展 
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表 4.7 公开 数据 库 中 的 细菌 完全 基因 组 ( 带 * 号 者 为 古 细 萌 》 

FI" ETR MEE ORE 数 

Aeropyrum perniz"* 1 669 695 2 694 
FERE PE Aquifez aeolicus 1 551 335 ] 522 
Dj d E ER DNI Archaeoglobus fulgidus" 2 178 400 2 407 
Hm ERAT PS Bacillus subtilis 4 214 814 4 100 
di FH M UE d Borrelia burgdorferi 910 724 N50 
E M3 35 Bh H Hl Campylobacter jejuni 1 641 481 1 654 
肺炎 衣原体 Chiamydia pneumoniae CWLà29 1 230 230 1 052 
A5 ue KA de Chlamydia pneumoniae AR39 1 229 853 997 
Mek KIA dE Chlamydia pneumoniae J138 1 228 267 1017 
衣原体 Chlamydia muridarura 1 069 412 LIE: 
SEHR 衣原体 Chlamydia trachomatis 1 042 519 594 
dd i h R ER HE Deinococcus radiodurans 2 648 638 2 580 
Kiat Escherichia coli 4 639 221 4 289 
FTE dn A Haemophilus influenzae 1 830 138 1 709 
HII Helicobacter pylori 26695 1 667 867 1 566 
幽门 螺杆 菌 Helicobacter pylori J99 1 643 831 1 491 
T8 EBIFE M. therrnoautotrophicum* 1 751 377 1 369 
A C PRE Methanococcus jannaschii” 1 664 970 1 715 
fH AO ER AA Mycobacterium tuberculosis 4 411 529 3 918 
EM IR Mycoplasma genitalium 580 073 467 
肺 必 支原体 Mycoplasma pneumoniae 816 394 G77 
WM REFERER Neisseria meningitidis MC58 2 272 325 2 025 
RERE  Neissera meningitidis 72491 2 184 406 2 121 
E124 1] Pyrococcus abyssi* 1 765 118 1 765 
RIR Pyrococcus horikoshii" 1 738 505 I 979 
普 民 立 克 次 氏 体 Rickettsia prowazekti 1 111 529 N34 
5i nj x m dd Synechocystis PCC6803 3 573 470 3 169 
Nds tou dT Thermotoga maritima 860 725 1 546 
Bon mm ue it Treponema pallidum į 138 011 1 031 
AR RER XC I8 (06 Ureaplasma urealyticum 751 719 611 
EIAM Vibro cholerae El Tor N16961 4 033 460 3 885 
WARA Xylella fastidiosa 2 679 305 2 904 
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起 一 个 备 为 EcoWeb 的 专门 网 上 ,把 信息 、 文 献 和 链接 集成 为 一 体 . 
wi 2. 
K. E. Rudd, Nucleic Acids Res. 28 (2000) 60 - G4. 
pg bl: 
http://bmb.med.miami.edu/EcoGene/EcoWeb/ 
此 外 , 还 有 GenProtEc 数据 库 , 包含 大 鹏 杆菌 的 基 央 弓 和 和 蛋 『 质 纪 ， 
并 在 详细 的 与 序列 台 关 的 蛋 自 质 家 族 请 单 。 网 址 ， 
http://genprotec .mbl .edu/ 

R 349 RegulonDB ， 人 上 肠 杆 菌 转录 调控 和 操作 子 数据 库 . 其 3.0 版 描述 
见 ， 
H. Salgado 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 65 - 67. 
bs 3b: 
http://www.cifn.unam.mx/Computational.Biology/regulondb/ 
"pm xgos — 26 8; feum Qu GO SE pa £t SC E HE 

R 350 NRSub , {FIER 5 E FAT DNA 数据 库 ， 包 括 完 全 基因 弓 、 
SEA T EH LE, 基 内 图 谱 和 基因 家 族 ， 有 对 SWISS-PROT [R- 401] , 
ENZYME(|[R-415], HOBACGEN [R-421) 等 数据 库 的 父 只 引用 。 所 
RECRE ER FERIA JER: 
G. Pirriese 等 ， Nucleic Acids Res. 26 (1998) 60 - 62. 
BE FE WHEA 06 ed Bb Y 2 R R 68 X 3 PBIL [R-150) : 
http://acnuc.univ-lyoni.fr/nrsub/nrsub.html 
ftp://biom3.univ-lyoni.fr (/pub/nrsub) 
许多 大 的 生物 信息 中 心 设 有 镜 象 点 .例如 日 本 镜 象 点 在 : 
http://ddbjs4h.genes.nig.ac.jp/ 
ftp://ftp.nig.ac.jp (/pub/db/nrsub) 

R 351 HIDB., HARTĂ dt f 完全 基因 纸 的 原始 数据 库 。 揽 述 见 ， 
R. D. Fleischmann 5$, — Science 269 (1995) 496 - 512. 
网 引 : 
ftp://ftp.tigr.org/pub/data/h.influenzae 
http://www.tigr.org:S0/tdb/mdb/hidb/hidb.htm! 

R.352 HIDC , 流感 嘲 血 菌 基因 序列 库 , 其 给 织 方 式 与 大 肠 杆 菌 的 ECDC 
(R 347] PERIL. 网 址 : 
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http://susi.bio.uni-giessen.de/ecdc/hidc.html 

R-353 CyanoBase, Wm] MHE, XERE E RH UE 4l (Synechocystis 
sp. PCC6803) 的 基因 组 数据 库 . dE E R E BERG m TE H1 Br ws o 
全 套 基因 .这 一 菌株 的 完全 基因 纠 已 在 1996 EWE, WSA: 
Y. Nakamura, T. Kaneko, and S. Tabata, Nucleic Acids Res. 28 (2000) 
72. 
网 址 : 
http://www.kazusa.or.jp/cyano/cyano.html 

R-354 MJDB , AR PRERA HAHAKE., Hose AER EH VR A: 
C. J. Bult 等 ， Science 273 (1996) 1058 - 1073. 
网 址 : 
ftp://ftp.tigr.org (/pub/data/m.jannaschii) 
http://www.tigr.org/tdb/mdb/mjdb/mjdb.html 

R-355 MycDB ,分 枝 杜 菌 数据 库 . 这 是 由 世界 卫生 组 织 WHO 等 支持 的 
一 个 交互 式 数 据 库 ， 其 中 最 重要 的 部 分 涉及 麻风 分 枝 杆 菌 (Mucobac- 
terium leprae) 和 结核 分 枝 杆 菌 (Mycobacterium tuberculosis) ， 库 的 
描述 见 : 
S. Gergh. and S. T. Cole, Mol. Microbiol. 12 (1994) 517 - 534. 
网 址 ， 
http://www.biochem.kth.se/MycDB.html 

R-356 RsGDB ， 类 球 红 细菌 (Rhodobacter sphaeroides) 基因 组 数据 库 。 
类 球 红 细 菌 有 了 两 个 环形 染色 体 ， 大 者 CI 约 有 3Mbp ， 小 者 CII 约 有 
0.9Mbp . 这 是 CI 的 数据 库 ， 请 参看 : 
M. Choudhary, C. Mackenzie, N. J. Mouncey, and S. Kaplan, Nucleic 
Acids Res. 27 (1999) 61 - 62. 
文中 所 给 网 址 很 难 进入 .有 必要 时 请 与 上 上 文 第 一 作者 联系 : 
mailto:/ madhuQutmmg.med.uth.tmc.edu 

R-357 PGI , f$ fai ENARE) (Phytophthora Genome Initiative) 的 
数据 库 . 这 个 由 NCGR [R-135] 支持 的 项 目 ,研究 破坏 性 很 大 的 植物 
病原 , 即 卵 菌 网 (Oomycetes) BE SEHE 的 基因 与 演化 , 目的 在 于 了 解 
其 感染 和 抗 性 机 理 . 目前 在 做 Phytophthora infestans 和 Phytophthora 
sojae 的 EST 和 后 者 的 BAC 库 的 测序 。 详 见 : 
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M. Waugh 等 8 位 作者 ， Nucleic Acids Res. 28 (2000) 87 - 90. 
网 址 : 
http://www.ncgr.org/pgi/ 


4.10.2 真 荫 基因 组 


FERE (fungi) 界 的 基因 组 , 首先 是 与 模式 生物 酿酒 酵母 (Saccharomyces 
cerevisiae) 有 关 的 一 批 数 据 库 ， 例 如 ， 
R-358 SGD , BRIBAEGISEDQAZL IUE E. 它 把 功能 基因 组 学 信息 集成 到 数 
据 库 中 .参看 : 
C. A. Ball 等 17 位 作者 、 Nucleic Acids Res. 28 (2000) 77 - 80. 
Fg hb: 
http://genome-www.stanford.edu/Saccharomyces/ 
ftp://genome-ftp.stanford.edu (/pub/yeast) 
R-359 LISTA, LISTA-HOP ti LISTA-HON 是 酿酒 酵母 基因 弓 中 和 蛋白 
质 编码 序列 及 其 同 源 性 的 数据 库 ， 详 见 : 
R. Dolz 等 5 位 作者 ， Nucleic Acids Res. 24 (1996) 50 - 52. 
网 址 : 
http://www.ch.embnet .org/ 
ftp://bioftp.unibas.ch 
请 注意 ， 这 是 酵母 完全 基因 组 测定 之 前 形成 的 数据 库 。 
R-360 MYGD ， 芋 母 基 因 组 、 和 蛋白 质 和 同 源 关系 的 数据 库 ， 撒 述 见 : 
H. W. Mewes 等 12 位 作者 ， Nucleic Acids Res. 28 (2000) 37 - 40. 
网 址 ; 
http://www.mips.biochem.mpg.de/proj/yeast/ 
R-361 YIDB ， 酵 母 内 合子 数据 库 ， 详 见 : 
P. J. Lopez, and B. Seraphin, Nucleic Acids Res. 28 (2000) 85 86. 
网 址 ; 
http://www.EMBL-Heidelberg.DE/ 
ExternallInfo/seraphin/yidb.html 


此 外 ， 还 请 参看 酵母 蛋白 质 组 数据 库 YPD [R-499] 、 酵 母 基 因 功 能 
数据 库 TRIPLES[R-508] 等 。 关 于 其 他 真菌 ， 可 参看 : 
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R-362 MNCDB , WWI MIPS Bp At p (5 POBRE 6E flu (Neurospora crassa) 
基因 组 数据 库 . 其 某 因 弓 总 长 约 4 300 万 碱 基 对 ， MIPS f HET A 
染色 体 中 的 第 II 和 第 V S. eps: 
http://www.mips.biochem.mpg.de/desc/neurospora/ 

R-363 P B 1E E 41 E INL 1] hi: 
http://fungus.genetics.uga.edu:5080/main.html 
这 里 有 指向 念珠 菌 (Candida) , BERIE (Neurospora) WM iB. ( Preu- 
mocystis) 基因 纽 计 划 的 链接 、 不 再 一 一 列 出 . 

R-364 FGSC ， 真 菌 遗 传 学 信息 中 心 (Fungal Genetics Stock Center) 。 其 
了 网址 是 : 
http://www.fgsc.net/ 


4.10.3 ”原生 生物 和 线虫 基因 组 


关于 原生 生物 基因 组 测序 的 进展 ， 可 以 参看 : 
R-365 KYEH BWE EBI [R-131] 的 原生 生物 网 页 ; 
http://www.ebi.ac.uk/Projects/Protozoa/ 
R-366 AJETEXEIS d ( Plasmodium falciparum) 的 染色 体 , 现 己 测 宛 第 LL 号 
和 第 Il1 号 。 其 描述 分 别 见 : 
M. J. Gardner 等 ， Science 282 (1998) 1126 - 1132. GenBank 编导 
AE001362., 
S. Bowman 等 ， Nature 400 (1999) 572. 
顺便 提 一 下 ， 蚊 子 的 基因 图 谱 数据 库 可 参看 MsqDB [R 315] . 
与 秀丽 线虫 (R-94] 有 关 的 数据 库 ， BT Bü gn CES TE SI XE US Introner- 
ator [R-243] 和 后面 还 要 介绍 的 WormPD [R-500] 等 ， 请 特别 注意 : 
R-367 ACeDB ， 线 虫 综合 数 据 库 . 它 的 原始 库 在 Sanger 中 心 [R-299] , 
但 可 从 许多 其 他 网 点 读 取 : 
ftp://sanger.ac.uk (/pub/acedb) 
ftp://ncbi.nlm.nih.gov (/repository/acedb) 
ftp://lirmm.lirmm.fr (/pub/acedb) 
应 当 特 别 指出 ，ACeDB 数据 库 本 身 基于 面向 对 象 的 程序 设计 (OOP) 
[R-51] 思想 ， 可 以 从 网 络 上 自由 下 载 . 昌 前 许多 研究 单位 用 它 建立 自 
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己 的 数据 库 。 站 见 第 5 章 的 介绍 [R--851] ， 

R-368 关于 线虫 发 育 特别 是 化 学 感觉 神经 的 研究 ， 可 以 参阅 C. Bargmann 
实验 室 的 网 页 : 
http://devbio-maci.ucsf.edu/ 


4.10.4 昆虫 基因 组 


RW (Drosophila melanogaster) 的 研究 ， 近 一 个 世纪 以 来 对 遗传 学 的 
发 展 始终 起 着 重要 作用 . 全 地界 果 蝇 研究 者 大 约 有 6 000 A. REM (T e RE 
因 组 有 1.8 亿 碱 基 对 ， 其 富 含 某 因 的 常 染 色 质 (euchromatin) 部 分 ， 计 1.2 
亿 碱 基 对 ， 已 经 由 Celera Genomics 公司 [R-798] 为 主 的 协作 给 基本 十 测 
定 ， 并 于 2000 年 3 月 24 日 发 表 在 美国 《科学 》 周 刊 的 果 蜗 坟 导 上 。 果 
HA 13 600 个 基因 ， 比 线虫 略 少 . 

R-369 M. D. Adams 等 34 个 单位 的 195 位 作者 ，“The genome sequence 

of Drosophila melanogaster", Science 287 (2000) 2185 - 2195. 

相应 数据 已 送 交 GenBank[R-212] ,索取 号 为 AE002566 - AE003403 . 

下 面 再 列举 一 些 与 果 蝇 有 关 的 数据 库 或 研究 中 心 : 

R-370 斯 坦 福 大 学 的 果 蝇 基因 组 中 心 ， 已 经 独立 出 来 。 它 的 网 址 是 : 
http://www.fruitfly.org/ 
R-371 FlyBase, RREA T EISE, HARRA HHEH, Hh 

述 见 ， 

The Flybase Consortium, Nucleic Acids Res. 27 (1999) 85 - 88. 

实际 上 现在 已 经 发 展 出 一 个 名 为 The Interactive Fly 的 网 页 涵盖 果 

MALE], Ei 组 织 和 器 官 发 育 ， 生 化 和 发 育 途 径 等 各 方面 的 信息 . 

网 址 : 

http://flybase.bio.indiana.edu/ 

ftp://flybase.bio.indiana.edu/ 

在 各 主要 国际 生物 信息 中 心 均 有 镜 象 . 

R-372 FlyNets ， 果 蝇 分 子 和 遗传 相互 作 用 数据 库 。 请 参看 : 

C. Sanchez 等 8 位 作者 ， Nucleic Acids Res. 27 (1999) 89 - 94. 

网 址 : 

http://gifts.univ-mrs.fr/FlyNets/ 
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R-373 GIF-DB ， 果 蝇 胚 胎 发 育 过 程 中 基因 相互 作用 的 WWW 数据 库 ， 
其 格式 与 EMBL (R-211] 库 类 似 。 请 参看 ; 

E. Mohr 等 8 位 作者 ， Nucleic Acids Res. 26 (1998) 89 .93. 
相应 GIFTS RE 25 35 B9 Vor: 
http://www-biol.univ-mrs.fr/^ lgpd/GIFTS bome.page.html 

R-374 哈佛 大 学 的 果 蝇 网 页 : 
http://morgan.harvard.edu/ 

SR 8 EA Pp XC ftl EG, HB. B5 SE DAL PLE ICE FE, PUT EL IB IB: 

R-375 MsqDB , & T X Ei friHe, &f& E Ferr agis opo RE EHE, pel 
hi. 
http://klab.agsci.colostate.edu/acedb/MsqDB-acedb.html 
ftp://klab.agsci.colostate.edu 


4.10.5 和 鱼 类 数据 库 


模式 生物 斑马 鱼 的 研究 信息 和 数据 库 ， 可 访问 以 下 网 址 : 

R-376 美国 国家 卫生 署 (NIH) 1997 年 建立 的 壕 马 鱼网 页 : 
http://www.nih.gov/science/models/zebrafish/ 
这 里 有 -- 批 与 斑马 鱼 信息 资源 有 关 的 链接 . 

R-377 ZFIN ， 焉 蕊 色 基 因 组 、 发 育 突变 和 对 生 种 系数 据 库 。 敬 直 ， 
http://zfish.uoregon.edu/ZFIN/ 
注意 : 此 网 页 只 能 用 Netscape 3.0 [R-68] 以 上 的 浏览 器 访问 、[nternet 
Explorer [R-69] 不 能 正确 工作 。 

R-378 Fugu 是 河豚 (Fugu rubripes) 的 简称 ， 英 文 又 叫 Puffer fish. € W 
基因 组 大 小 只 有 人 的 七 分 之 一 , 但 基因 数目 与 人 相近 , 因此 也 被 列 为 
与 天 类 基因 组 计划 有 关 的 模式 生物 . 其 数据 库 网 址 : 
http://fugu.hgmp.mrc.ac.uk/ 


4.10.6 Mrd zh e QE TR SR 


9 BL (Mus musculus) 的 DNA. 序列 长 度 和 基因 总 数 都 与 人 类 相近 ， 
可 忒 通过 基因 日 除 等 实验 增进 对 人 类 基因 的 认识 . 因此 , 家 鼠 基 因 组 计划 
与 人 类 基因 组 计划 密切 相关 . 原来 预计 家 局 的 完全 基因 组 将 在 2008 年 测 
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出 ， 看 来 可 能 大 为 提前 。 下面 列举 一 些 与 家 虹 有 关 的 数据 库 . 

R-379 M. Musculus 基因 组 库 . GenBank 已 经 在 1999 年 10 月 底 在 某 因 
纠 目 录 下 建立 了 家 鼠 子 目录 ， 网 志 :: 
ftp://ncbi.nlm.nih.gov (/genbank/genomes/M muslulus) 

这 个 子 目 录 中 的 文件 按 染 色 体 编号 . 

R-380 MGD . ZR SE XL LE, 现在 又 称 MGI EIK MA Æ A H f ARE (Mouse 
Genome Informatics) , H H iE E kV, A 3x SLE. ni 3618 IE. MGEIR [R-509] 
的 组 成 部 分 . 它 包含 实验 室 中 培育 的 家 局 的 遗传 和 基因 、 图 谱 和 文献 
信息 ， 还 有 到 其 他 哺乳 类 数据 库 的 链接 . 详 见 : 

J. A. Blake, J. T. Eppig. J. E. Richardson, M. T. Davisson, VJ E 2X K 
基因 组 数据 库 小 组 ， Nucleic Acids Res. 28 (2000) 108 - 111. 

Ed bb: 

http://www.informatics.jax.org/mgd.html/ 
ftp://ftp.informatics.jax.org/ 

在 英国 、 法 国 和 日 本 设 有 镜 象 点 . 

R-381 Cre 转基因 家 鼠 系 的 数据 库 .。 Cre SA NS HA FE EL (SPI 的 
Cre 基因 编 玛 ， 是 基因 轰 位 操作 的 一 种 工具 。 可 参看 : 

AEF, 朱 作 言 ,“ 基 因 靶 位 操作 的 原理 与 策略 *，《 遗传 》 21 (1999) 

第 3 期 ， 

http://www.chinainfo.gov.cn/periodical/ 
yc/yc9903/990314 .htm 

加 拿 大 Nagy 实验 室 的 Cre $£ 36 AR pe a h: 

http://www.mshri.on.ca/nagy/cre.htm 

R-382 RatMap , X BUSEER E BUB HS PE, Br RULES G5 3E DXLRD DNA 标 
ii. 5obRBURAGBSISUS XR SE,. i: 
http://ratmap.gen.gu.se/ 


4.10.7 ”细胞 器 数据 库 


细胞 器 数据 库 目 前 主要 搜集 关于 线粒体 和 叶绿体 基因 的 数据 . 


R-383 MitoNuc 和 MitoAln 是 关于 编码 线粒体 蛋白 的 细胞 核 基本 的 两 
企 相 互 关 联 的 数据 库 . 请 参看 : 
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G. Pesole 等 8 位 作者 ， Nucleic Acids Res. 28 (2000) 163 - 165. 
网 址 : 
http://bio-www.ba.cnr.it:8000/srs6/ 

R-384 GOBASE , 细胞 器 基因 组 数据 库 . 县 前 数据 集中 在 线粒体 基因 给 ， 
下 一 步 将 扩展 到 叶绿体 以 及 被 认为 与 线粒体 和 叶绿体 的 共同 衬 先 有 


关 的 细菌 .请 参看 : 

M. Korab-Laskowska 等 7 位 作者 ， Nucleic Acids Res. 26 (1998) 138 
— 144. 

网 址 : 


http://megasun.bch.umontreal.ca/gobase/ 
R-385 MitBASE , 线粒体 DNA 数据 库 , 集成 所 有 已 知 线粒体 基因 信息 ， 
包括 人 、 动 物 、 植 物 和 微生物 ， 也 提供 一 些 检索 工具 .此 库 的 较 近 介 
绍 见 : 
M. Attimonelli 等 22 位 作者 ，Nucleic Acids Res. 28 (2000) 148 - 152. 
网 址 : 
http://www3.ebi.ac.uk/Research/Mitbase/mitbase.pl/ 
R-386 人 类 线粒体 数据 库 : 
http://bio-www.ba.cnr.it:8000/Tutorials/MitBASE/ 
R-387 MitBASE Pilot ， 醇 母线 粒 体 中 核 基因 数据 库 。 网址 : 
http://www3.ebi.ac.uk/Research/Mitbase/mitbase.pl/ 
R-388 fü 5 fn BE PE eer (T DESI: 
http://www.biologie.uni-ulm.de/bio2/ 
knoop/mitbase/plant.mt.gene.gif 
http://tonic.ebi.ac.uk:8889/mitbase/ 
plsql/pla qry.pla.show.qry.opts/ 
R-389 原生 生物 线粒体 数据 库 : 
http://bio-www.ba.cnr.it:8000/Tutorials/ 
MitBASE/protist table.html 
R-390 PF HE sy) Ae PE HE. 
http://bio-www.ba.cnr.it:8000/Tutorials/ 
MitBASE/vertebrate.html 
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目前 研究 得 最 多 的 模式 植物 是 拟 南 芥 (Arabidopsis thaliana) . ' ff 
基因 组 总 长 度 约 1.2 亿 碱 基 对 ， 约 编码 25 000 个 基因 ， 将 在 2000 年 基本 
上 测序 完毕 .下面 是 几 个 与 拟 南 芥 基 因 组 有 关 的 数据 库 : 

及 -391 MATDB ， 转 际 拟 南 和 芥 基 因 绀 计划 (Arabidopsis Genome Initia- 
tive, ， 简 称 AGI) 的 数据 汇总 。 关 于 此 计划 请 参看 : 
M. Bevan 等 5 位 作者 ， Bioessays 21 (1999) 110 - 120. 
数据 库 网 址 : 
http://www.mips.biochem.mrg.de/desc/thal/ 

R-392 AtDB ， 拟 南 芥 基因 组 数据 库 。 详 见 : 
S. Y. Rhee 等 7 位 作者 ， Nucleic Acids Res. 27 (1999) 79 - 84. 
网 址 : 
http://genome-wuw .stanford.edu/Arabidopsis/ 
ftp://genome-ftp.stanford.edu (/pub/arabidopsis) 
GenBank 在 1999 年 底 开 辟 了 拟 南 芥 基因 组 的 子 目 录 : 
ftp://ftp.ncbi.nlm.nih.gov (/genbank/genomes/A thaliana/) 
此 子 目 录 中 现 有 第 II 号 和 第 IV 号 两 个 染色 体 的 子 生 录 . XTAIV 
号 染色 体 的 描述 见 下 一 条 目 . 

R-393 欧洲 共同 体 拟 南 芥 基因 组 计划 组 织 ， 以 及 M. Reven 等 68 位 作者 ， 
Nature 391 (1998) 485 - 488. 

R-394 DAtA ， 拟 南 芥 基因 组 注释 库 . 详 见 : 
C. J. Palm, N. A. Federspiel, and R. W. Davis, Nucleic Acids Res. 28 
(2000) 102 — 103. 
网 址 : 
http://luggagefast.Stanford.edu/group/arabprotein/ 

R-395 TAIR, 拟 南 芥 人 入 息 资源 (The Arabidopsis Information Resources) , 
是 NCGR [R-135] 和 卡 内 基 研 究 会 (Carneigie Institution) 在 1999 年 
10 月 共同 建立 的 拟 南 芥 基 因 组 和 文献 数据 岩 ， 网 址 ， 
http://www ,arabidopais.org/ 

R-396 AGR. ， 拟 南 芥 基因 组 资源 (Arabidopsis Genome Resource) ， 是 英 
国 CropNet [R-567] 网 上 植物 生物 信息 的 一 部 分 。 网 址 : 
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http://synteny.nott.ac.uk/agr/agr.html 

ftp://thale.nott.ac.uk (/pub/uk-crop/db/AGR/) 

这 是 UK-CropNet [fj —4- ES, BE HRR 3 点 更 新 一 次 ， 
R-397 TIGR-AT , TIGR (R-156] 研究 所 的 拟 南 芥 EST 和 基因 序列 数据 

BE. 描述 见 ; 

S. D. Rounsley 等 ?位 作者 ， Plant Physiol. 112 (1996) 1177 - 1183. 

殉 址 : 

http://www.tigr.org/tdb/at/at.html 

ftp://ftp.tigr.org (/pub/data/a thaliana) 


4.10.0 ”病毒 数据 库 


最 后 ， 提 几 个 与 病毒 有 关 的 数据 库 : 

R-398 ICTVdB ， 病 毒 数 据 库 . 这 是 同 际 病毒 分 类 委员 会 (International 
Committee on Taxonomy of Viruses ， 简 称 ICTV) 指导 下 建立 的 病 
毒 命名 、 显 微 镜 照片 和 基因 序列 的 数据 库 . 原始 库 在 澳大利亚 倒立 大 
学 : 
http://life.anu.edu.au/viruses/ICTVdB/ictvdb.html 
中 国 科学 院 微生物 研究 所 (R-170] 设 有 镜 象 : 
http://wwwi.im.ac.cn/ictvdb/ 

R-399 VIDEdB ， 病 毒 鉴 定 交 换 数 据 库 (Virus Identification Data Ex- 
change) .原始 库 在 澳大利亚 国立 大 学 : 
http://biology.anu.edu.au/research-groups/MES/vide/ 

中 国 科 学 院 微生物 研究 所 [R-170] & £j 8E S, Mhi [R-398] . 

R-400 RDV ， 水 稻 矮 缩 病 毒 (Rice Dwarf Virus) 基因 组 数据 库 ， 由 北京 
大 学 生物 信息 中 心 王 建 代 和 顾 孝 诚 建立 . 它 不 仅 包 含 序列 和 图 谱 信 
息 ， 还 有 文献 目录 .网址 : 
http://www .cbi.pku.edu.cn/rdv/ 


$4.11 蛋白质 序列 数据 库 


最 重要 的 蛋白 质 氨 基 酸 序列 数据 库 是 瑞士 的 SWISS-PROT [R--401) 
和 和 美 、 德 、 日 三 国 合 建 的 国际 PIR rk [R-404] , 


128 第 4 章 生物 信息 数据 库 


R-401 SWISS-PROT 旺 对 数据 人 工 审读 很 严格 的 库 . 可 以 说 ， 具 有 实际 
存 存 的 蛋白 质 才 被 收入 . 每 一 条 数据 都 有 详细 注释 ,包括 功能 、 结 构 
域 、 翻 译 后 的 修饰 等 , 以 及 齐全 的 引文 和 到 许多 其 他 数据 库 的 链接 ， 
此 库 的 元 余 度 也 较 低 . 一 般 说 , 任何 蛋白 质 序列 数据 的 搜寻 和 比较 部 
应 当 从 SWISS-PROT Fek, Bryce Hid X. 

A. Bairoch, and R. Apweiler, Nucleic Acids Res. 28 (2000) 45 - 48. 
网 址 ; 

http://www.expasy.ch/sprot/ 

ftp://ftp.expasy.ch (/databases/swiss-prot/) 

北京 大 学 生物 信息 中 心 [R-166] £j SWISS-PROT 镜 象 ， 可 授 过 检索 
工具 SRS [R-203] 查询 . 

R-402 TrEMBL 是 从 EMBL Æp HREF IREE KEA ERII, 
已 经 完成 了 自动 注释 . 它 又 分 成 两 部 分 : SP-TrEMBL ff 4 El C.1H 
专家 人 工分 类 并 且 赋 了 予 了 SWISS-PROT 库 的 索取 号 , [B E EEG 
过 人 工 审读 被 最 终 收 入 SWISS-PROT; REM-TrEMBL (REMain- 
ing TrEMBL) 包含 由 于 某 种 原因 而 还 没有 被 收入 SWISS-PROT 的 
条 目 . 参看 [R-401] 引文 。 1999 年 4 月 这 个 库 里 有 77 977 条 序列 . 
Fh: 
ftp://ftp.ebi.ac.uk (/pub/databases/trembl/) 
http://www.ebi.ac.ux:5000 
hn fg 1B Hx f£ SWISS-PROT £41 TrEMBL 中 全 部 条 自 的 清单 , of 访问: 
http://www.expasy.ch/sprot/sprot-retrieve-list.htmi 
取 SWISS-PROT--TrEMBL 3E5U 4 He Hi: 
ftp://ftp.expasy.ch (/databases/sp.tr.nrdb/) 
北京 大 学 生物 信息 中 心 [R-166] 有 镜 象 , 可 通过 检索 工具 SRS [R 203] 
查询 . 

R-403 TrEMBL-NEW 是 从 EMBL 库 中 的 核酸 序列 翻译 出 来 的 氨基 版 
序列 , 但 是 还 没有 赋 给 SWISS-PROT 索取 号 ， 因 此 只 能 借助 蛋白 质 
标识 符 检索 . 

R-404 PIR 是 蛋白 质 信息 资源 (Protein Information Resource) fj tà, iX 
是 一 个 国际 蛋白 质 序列 数据 库 ， 它 包含 所 有 序列 已 知 的 自然 界 中 野 
生 型 蛋白 质 的 信息 .此 库 主 要 目的 是 提供 按 同 源 性 和 分 类 学 织 织 的 
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HER, ETRIE., E HU 3E ERES ak $8 B2 de ESL AERE UE SC 3E m 
2 (National Biomedical Research Foundation ， 简 称 NBRF) 所 支持 
的 PIR 、 德 国 马 普 学 会 的 幕 尼 黑 蛋 白质 序列 信息 中 心 MIPS [R-139] 
和 日 本 的 JIPID [R -138] 共同 维护 。 自 1984 年 以 来 ， PIR tAE 
新 , 每 季度 发 行 新 版 ，PIR 内 容 分 为 上线 ,其 2000 年 1 月底 的 63.03 
版 的 收藏 情况 见 表 4.8 ， 2000 年 1 月 21 日 的 63.02 版 收入 171 197 


表 4.8 PIR 的 收藏 情况 


PIRI 完 余 分 类 消夏 20 049 
PIR? cams 150 497 
PIR3 ken 781 
PIRA RRHH 369 
总 计 i71 696 


条 蛋白 质 ， 共 计 59 721 663 个 氨基 酸 残 基 。 PIR 库 实际 上 是 PSD 
[R-408] 、 PATCHX [R-409]. ARCHIVE (R-410], NRL-3D {R 
451], FAMBASE [R-452]. PIR-ALN [R-456], RESID [R 460]. 
ProClass [R-411], ProtFam [R-453] 和 PIR-ASDB [R-412! 等 多 个 
数据 库 的 集成 和 链接 。 最 近 的 综述 见 : 

W. C. Barker 等 14 位 作者 ， Nucleic Acids Res. 28 (2000) 41 - 44. 
网 址 : 

http://www-nbrf.georgetown.edu/pir/ 
http://www.mips.biochem.mpg.de/proj/protseqdb/ 
ftp://nbrf.georgetown.edu (/pir/) 

北京 大 学 生物 信息 中 心 [R-166] SAR. 

R-405 GenPept 是 由 GenBank [R-212] 中 的 DNA I yi $8 ix (8 3 ft 4 r3 
质 序列 ， 与 TrEMBL [R-402] 相似 ,但 没有 像 后 者 那样 经 专家 审读 . 
网 址 : 
http://www.infobiogen.fr/srs/ 
ftp://ftp.ncifcrf.gov (/pub/genpept) 
ftp://ftp.infobiogen.fr (/pub/db/genpept) 
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ftp://bioinformatics.weizmann.ac.il 
访问 子 目 录 /pub/databases/genpept , 

R-406 PROSITE ,由 专家 根据 生物 知识 审 编 的 SWISS-PROT [R-401] 蛋 
向 质 序列 中 有 生物 意义 的 位 点 (sites) 、 模 式 (patterns) 和 轮廓 (Pro- 
files) 的 数据 库 ， 包 括 酶 活性 位 点 、 辅 助 因 子 结合 位 点 、 二 硫 键 S-S 
位 点 等 . 此 库 可 以 帮助 确定 新 的 蛋白 质 序列 是 否 尾 于 已 知 的 察 族 . 
用 户 可 用 PrositeScan [R-407] 服务 器 搜索 此 库 . 请 参看 : 
K. Hofmann, P. Bucher, L. Falquet, and A. Bairoch, Nucieic Acids 
Res. 27 (1999) 215 - 219. 
网 址 : 
http://www.expasy.cb/prosite/ 
ftp://ftp.expasy.ch (/databases/prosite) 
ftp://ncbi.nlm.nih.gov (/repository/PROSITE) 
北京 大 学 生物 信息 中 心 [R-166] fr. 

R-407 PrositeScan 服务 器 , 根据 用 户 填 表 提 交 的 蛋白 质 序列 搜索 PROSE 
TE 模式 . 它 接 受 所 有 ReadSeq [R-699] 程序 所 能 转换 的 序列 格式 ， 
也 可 按 SWISS-PROT 的 ID 或 AC $, GenPept [R-405] 的 GI 号 指 
定 序列 。 网 址 : 
http://www.isrec.isb-sib.ch/software/PSTSCAN.form.html 

R-408 PSD ,和 蛋白质 序列 数据 库 (Protein Sequence Database), Æ PIR 的 
主体 .描述 请 参看 PIR[R-404| 的 引文 。 网址 : 
http://pir.georgetown.edu/pirwww/dbinfo/textpsd.html 

R-409 PATCHX , PIR 的 于 库 之 一 ， 收 入 尚未 纳入 PIR E E FUA 
Jj. 请 参看 PIR [R-404] 的 引文 。 网 址 : 
http://pir.georgetown.edu/pirwww/dbinfo/patchx.html 

R-410 ARCHIVE, PIR 的 子 库 之 一 ， 保 存 PIR [R-404] 库 中 条 目的 原 
始 文 献 或 最 初 提交 的 序列 、 请 参看 PIR 的 引文 。 网 址 ， 
http://pir.georgetown.edu/pirwww/dbinfo/archive.html 

R-411 ProClass, ， 和 蛋白 质 类 数据 库 、， 是 根据 PROSITE 库 [R-406| 和 PIR 
HE [R-404| 中 超 家 族 的 关系 组 织 起 来 的 非 袍 余 蛋 白质 库 ， 详 见 : 
H. Huang, C. L. Xiao, and C. H. Wu, Nucleic Acids Res. 28 (2000) 
273 - 276. 


"utes 
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Fg hb: 
http://pir.georgetown.edu/gsfserver/prolclass.html 
ftp://nbrfa.georgetown.edu (/pir/databases/proclass/) 
http://diana.uthct.edu/proclass.html 
ftp://diana.uthct.edu ( tt /pub/ProClass/) 

R-412 PIR-ASDB, PIR 的 注释 和 相似 性 数据 库 . 它 集 中 了 PSP [R-408] 
中 所 有 相似 条 目的 注释 。 网址: 
http://www-nbrf.georgetown.edu/pir/ 

R-413 KIND , 34 f Nr i BF K PEE I 6 Geh HE DP I HET AR ARY PU 
岸 ， 可 由 KI [R-145] 的 ftp 服务 器 下 载 : 
ftp://ftp.mbb.ki.se (/pub/KIND) 

在 介绍 ENZYME 等 酶 数据 库 之 前 ， 必 须 说 明 一 下 酶 的 命名 系统 。 国 
际 生 物化 学 和 分 子 生 物 学 联合 会 下 属 的 命名 委员 会 (Nomenciature Com- 
mittee ， 简 称 NC-IUBMB) 赋 耶 每 种 新 刻画 清楚 的 杖 一 个 由 4 个 数字 给 成 
f) * 85, 称 为 EC 号 . 例如 , RER (ATPase) 的 EC 号 是 3.6.1.37 . 酶 的 
发 现 者 应 当 向 NC-IUBMB 提出 申请 . 联系 地 址 和 审 请 表格 可 在 ENZYME 
(R-415] 数据 库 的 使 用 手册 中 找到 。ENZYME 、BRENDA [R-416] 、EMP 
[R-549] 、 PUMA [R-551], WIT [R-548] 、 LIGAND [R-557] 等 多 种 与 
酶 和 代谢 途径 有 关 的 数据 库 均 使 用 EC 号 . NC-IUBMB 不 定期 地 发 表 除 
的 命名 ， 例 如 : 

R-414 NC-IUBMB, Enzyme Nomencíature, Academic Press, 1992. 

R-415 ENZYME , 基于 命名 系统 的 醇 数 据 库 . 可 按照 醇 的 EC 号 . 分 类 、 
学 名 和 俗名、 化 合 物 、 辅 助 因 子 等 查询 . 每 一 个 条 目下 列 出 所 催化 的 
反应 和 酶 的 来 源 、 功 能 等 ， 并 有 指向 其 他 多 种 数据 库 、 以 及 文献 库 
MEDLINE [R-599] 和 代谢 途径 图 [R-555] 的 链接 。 截 至 2000 年 1 J} 
15 H, ENZYME 第 25 版 包含 3705 CRA, WERE 
A. Bairoch, Nucleic Acids Res. 28 (2000) 304 - 305. 

网 址 : 

http://www.expasy.ch/enzyme/ 
ftp://ftp.expasy.ch (/databases/enzyme) 
北京 大 学 生物 信息 中 心 [R-166] HER. 

R-416 BRENDA ， 这 是 一 个 内 容 广 泛 的 酶 的 信息 库 。 网 址 : 
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http://www.brenda.uni-koeln.de/ 

R-417 OWL , 蛋白 质 序列 库 , 是 由 SWISS-PROT [R-401], PIR {R 404], 
GenBank [R-212] 翻 详 序 列 和 PDB iR-441] FAE He r7 ^E f IESU 3: 
89425 CREE TUE, Wak: 
http://bmbsgiii.leeds.ac.uk/bmb5dp/owl.html 
ftp://ftp.hgmp.mrc.ac.uk (/pub/database/owl) 
ftp://bmbsgiil.leeds.ac.uk (/pub/owl/) 
ftp://ncbi.nlm.nih.gov (/repository/OWL) 
北京 大 学 生物 信息 中 心 [R-166] 有 镜 象 . 

R-418 GeneCards ， 由 以 色 列 魏 茨 曼 科 学 研究 所 [R -164] Hpi KT E 
因 友 其 产物 ， 以 及 它们 的 生物 医学 垃 峙 的 文献 库 。 描 述 见 : 

M. Rebhan, V. Chalila-Caspi, J. Prilusky, and D. Lancet, Bivmformat- 
ics 14 (1998) 656 - 664. 

网 址 : 

http://bioinfo.weizmann.ac.il/cards 

中 国 镜 象 在 北京 医科 大 学 [R-169] . 

R-419 SWISS-2DPAGE , iH if E PUN WERE SERE HL Dk (PolyacrylAinide 
Gel Electrophoresis ， 简 称 PAGE) Br 8E MS E ELLA 5 P iC DS 
Hg. 包括 文 本 和 图 象 信息 ， 通 向 其 他 2D-PAGE 数据 库 的 链接 等 .最 
近 描 述 见 : 

C. Hoogland 等 了 位 作者 ， Nucleic Acids Res. 28 (2000) 236 288. 
网 址 ; 

http://www.expasy.ch/ch2d/ 

ftp://www.expasy.ch (/databases/swiss-2dpage/) 

狂 业 性 用户 使 用 此 库 ,， 须 付费 取得 许可 , 北京 大 学 生物 信息 中 心太 共 
B. 

http://expasy.pku.edu.cn/ 

ftp://expaxy.pku.edu.cn 

R-420 HDB , HEA Elie, 包括 联 配 好 的 组 蛋白 序列 以 及 己 确 认 包 含 
有 组 蛋白 折 径 模 体 的 非 组 蛋白 序列 、 以 及 所 有 已 知 组 绰 抽 和 组 级 站 
折合 的 结构 ， 同 时 指出 不 同 数据 库 中 类 似 序 列 的 差异 。 请 参看 : 

S. A. Sullivan 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 320 - 322. 
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Id Bi: 
http://genome.nhgri.nih.gov/histones/ 
ftp://ncbi.nlm.nih.gov (/pub/baxevanis/histones) 

R-421 HOBACGEN K$, ex Fi x ALERT PR A m RISE BETA 
列 ， 有 助 于 从 各 种 细菌 选取 同 源 家 族 , 作 多 序列 联 配 和 构建 亲缘 树 . 
Fj hl: 
http://pbil.univ-lyoni.fr/databases/hobacgen.html 

R-422 MITOP , RREAK, GLIAR SE ERE CE G OC) SER, i 
白质 和 疾病 信息 。 清 参看 : 
C. Scharfe 等 12 位 作 首 ， Nucleic Acids Res. 28 (2000) 155 - 158. 
Id BE: 
http://www.mips.biochem.mpg.de/proj/medgen/mitop/ 

R-423 MITOMAP ， 人 类 线粒体 基因 纠 数 据 库 ， 请 参看 ， 
A. M. Kogelnik 5 5 fr fE &, Nucleic Acids Res. 26 (1998) 112 115. 
Pg hl: 
http://www.gen.emory.edu/mitomap.html 

R-424 REBASE , RETEA BEF E ELR KREE., ERÉ f) 0g i ds 
点 、 草 切 位 点 、 甲 基 化 特异 性 、 出 哪些 微生物 分 离 得 到 ， 以 及 供应 商 
和 文献 ， 请 参看 : 
R. J. Roberts, and D. Macelis, Nucleic Acids Res. 28 (2000) 306- 307. 
网 址 : 
http://www.neb.com/rebase 
ftp://www.neb.com (/pub/rebase) 
北京 大 学生 物 信息 中 心 [R-166] HRR. 

R-425 ProtoMap ， 和 蛋白 质 分 类 数据 库 . 这 是 对 SWISS-PROT [R .401] 数 
据 库 中 的 全 部 蛋白 质 由 计算 机 自动 进行 层次 分 类 、 把 相关 者 聚集 分 
组 所 得 到 的 数据 库 。 所 列 出 的 许多 分 给 与 自然 的 蛋白 质 家 族 和 越 家 
族 有 关联 . 它 有 肪 于 对 已 知 蛋 白质 家 族 做 更 细致 的 划分 ， 3E PRI] c c 
之 间 的 关系 。 这 个 网 点 提供 人 交 占 式 . MRLE TH, APE R 
KUARERE ENRERE P “Y. WSE: 
C. Yona. N. Liniat. and M. Linial. Nucleic Acids Res. 28 (2000) 49 
$5. 
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网 址 : 
http://www.protomap.cs.huji.ac.il/ 

R-426 ISSD , 蛋白 质 序列 数据 库 , 其 每 个 条 上 自 包含 一 个 基因 的 编码 序列 、 
辣 相 应 的 氨基 酸 序 列 对 比 ,并 给 出 相应 多 肘 链 的 结构 数据 . 核 苷 酸 序 
列 取 自 GenBank [R-212] .结构 参数 取 自 PDB [R-441] ,. (235 £ Bk 
骨架 原子 坐标 、 二 面 角 ， 还 有 DSSP 程序 所 预测 的 二 级 结构 。 1SSD 
的 2.0 版 描述 见 : 

I. A. Adzhubei, and A. A. Adzhubei, Nucleic Acids Res. 27 (1999) 268 
- 271. 

网 址 : 

http://wuw.protein.bio.msu.su/issd/ 

R-427 PRF, 日 本 蛋白 质 人 研究 基金 会 (Protein Research Foundation) 维护 
着 三 个 蛋白 质 和 多 肽 数据 库 ，PRF/LITDB 文献 库 、PRF/SEQDB 序 
WIER PRF/SYNDB 合成 产物 库 . 它们 的 特点 是 包括 了 一 些 不 到 50 
个 丛 基 酸 残 基 的 多 肽 链 和 一 些 人 荆 合成 的 、 非 天 然 的 产物 .网 址 : 
http://prfsun2.prf.or.jp/ 

R-428 MEROPS , 肽 酶 数据 库 . 它 提 供 所 有 上 航 酶 , 即 蛋白 质 水 解 酶 的 目录 
和 基于 结构 的 分 类 . 这 是 很 大 的 一 群 蛋白 质 ， 占 基因 总 产物 约 276 ， 
在 医学 各 生物 技术 中 有 重要 作用 . 通过 炭 酶 名 称 索 引 ， 可 以 访问 名 为 
PepCards 的 一 组 文件 ， 每 个 文件 提供 一 种 肽 酶 的 分 类 和 命名 信息 、 
蛋白 质 和 核酸 序列 .三 级 结构 ， 以 及 通 向 其 他 人 类 遗传 数据 库 中 有 关 
条 目的 界面 。 PepCards 的 另 一 个 索引 可 按 物 种 名 称 查 找 其 全 部 已 知 
肽 酶 . 库 中 肽 酶 根据 其 对 活性 起 主要 作用 的 “ 先 醇 单元 ”部 分 序列 的 
统计 置信 的 相似 性 分 成 家 族 (families) . 有 共同 演化 来 源 并 且 预 期 有 
类 似 的 三 级 折 属 的 家 族 ， 再 归并 到 一 起 称 为 宗族 (clans), MEROPS 
中 另 有 名 为 FamCards 和 ClanCards 的 两 组 文件 .每 个 FamCard x 
忻 含 有 通 向 其 他 数据 岸 的 链接 , 以 便 查 找 序列 模 体 和 二 .、 三 级 结构 ， 
并 显示 该 家 族 在 主要 生物 界 中 的 分 布 情况 .请 参看 : 

N. D. Rawlings, and A. J. Barrett, Nucleic Acids Res. 28 (2000) 323 
- 325. 

网 址 ， 

http://www.bi.bbsrc.ac.uk/Merops/Merops.htm 


$4.11 蛋白 质 序 列 数 据 库 135 


R-420 PKR, "ES S RE (Protein Kinase Resource). fi xb Wi: 
M. Gribskov, P. Bourne, and C. M. Smith, in (R-19] (1999) 241 - 246. 
网 址 : 
http://www.sdsc.edu/Kinases/ 

pkr/pk catalytic/pk.cat.list.htmi 
http://www.sdsc.edu/Kinases/ 
pkr/pk structure.htmlitánalysis 

http://www.sdsc.edu/pb/Software.html 

R-430 Wnt 基因 网 页 。 Wo Hi E38 E Es BE DR ST BD Hp ME B6 fi 0 0E 
Wk, xS BG RS PO AUUIHHCRLTEHUE ERREX HAKKAR 
的 int-l 基因 和 果 蝇 的 wingless 基因 . 本 网 页 总 结 了 Wot 在 从 非洲 
扑 蜡 到 冰 椎 动物 和 人 类 的 基因 型 和 表现 型 数据 网 址 : 
http://vonbaer.ana.ed.ac.uk/rnusse/wntwindow.html 
http://www.stanford.edu/^rnusse/wntwindow.html 
另外 ， 请 参看 信号 转 导 知识 环境 STKE [R-852] 中 关于 Wnt 途径 的 
信息 . 

R-431 PhosphoBase ， 磷 酸化 位 点 数据 库 . 除了 直接 检索 ， 还 可 用 来 预 
测 给 定 序列 包含 何 种 激酶 磷酸 化 位 上 点。 其 2.0 版 描述 见 : 
A. Kreegipuu, N. Blom, and S. Brunak, Nucleic Acids Res. 27 (1999) 
237 - 239. 
网 址 : 
http://wuw.cbs.dtu.dk/databases/PhosphoBase/ 

R-432 SYSTERS ， 和 蛋白 质 集团 数据 闫 . 它 使 用 系统 重复 搜寻 方法 (SYS- 
TEmatic Re-Searching) 构建 此 方法 描述 见 : 
A. Krause, and M. Vingron, Bioinformatics 14 (1998) 430 - 438. 
数据 库 近 况 请 参看 : 
A. Krause, J. Stoye, and M. Vingron, Nucleic Acids Res. 28 (2000) 
270 - 272. 
Wht: 
http://www.dkfz-heidelberg.de/tbi/services/cluster/ 

R-433 DIP ， 伺 白质 相互 作用 数据 库 .。 描述 见 : 
I. Xenarios 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 289 - 291. 
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网 址 : 
http://URLdip.doe-mbi.ucla.edu/ 


R-434 DExH/D 数据 库 . DExH/D 蛋白 质 对 有 NA (Chim T. £4 £ 7; iim 


的 重要 作用 。 请 参看 : 

E. Jankowsky, and A. Jankowsky, Nucleic Acids Res. 28 (2000) 333 - 
334. 

网 址 : 

http://www.columbia.edu/^ej67/dbhome.htm 


R-435 Homeodomain ,， 间 源 异 形 结构 域 数据 库 . 由 同 源 异 形 盒 (参看 [R- 


233|) 编码 的 蛋白 质 结构 域 ， 构 成 一 个 大 的 蛋白 质 家 族 ， 此 库 搜集 其 
序列 、 结 构 和 基因 组 信息 .请 参看 : 

S. Banerjee-Basu, J. F. Ryan, and A. D. Baxevanis, Nucleic Acids Res. 
28 (2000) 329 ~ 330. 

网 址 ; 

http://genome.nhgri.gov/homeodomain/ 


R-436 InBase , 新 英格兰 生物 实验 公司 (New England BioLab , 简称 NEB) 


WEHA. 请 参看 ， 
F. B. Perler, Nucleic Acids Res. 28 (2000) 344 - 345. 
网 址 ， 


http://www.neb.com/neb/inteins.html 


R-437 LGICdb ， 配 体 门 控 离 子 通道 数据 磊 (Ligand Gated Ion Channel 


database) 。 它 包含 从 细胞 外 激活 的 通道 受 体 的 基因 、 RNA RUE 
质 序列 . 来 自 其 他 大 数据 库 的 信息 已 经 再 处 理 过 ， 以 减少 元 余 . 此 库 
也 包含 多 序列 联 配 、 亲 缘 关 系 、 原 子 坐 标 (PDB [R-441] 格式 ) 的 数 
据 。 请 参看 : 

N. Le Novée, and J. C. Changeux, Nucleic Acids Res. 27 (1999) 340 - 
342. 

RI BE: 

http://www .pasteur.fr/recherche/banques/LGIC/LGIC.html 


R-438 SENTRA ， 信 号 传递 蛋白 质数 据 库 .请 参看 : 


M. D'Souza, M. F. Romine, and N. Maltsev, Nucleic Acids Res. 28 
(2000) 335 — 336. 
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Rin: 
http://wit.mcs.anl.gov/WIT2/Sentra/ 

R-439 ICN ， 离 子 通道 网 络 (Ion Channel Network) ， 是 由 美国 神经 科学 
数据 库 中 心 等 单位 联合 建立 的 ~- 个 内 容 丰 富 的 网 页 。 网址 : 
http://pain.med.umn.edu/csn/ 

R-440 AAindex ， 氨 基 酸 索引 数据 库 . 它 包 含 20 种 氨基 版 的 各 种 物理 
化 学 和 生物 学 参数 的 数值 ， 以 及 序列 联 配 用 的 各 种 先 换 矩阵 ， 例 如 
PAM [R-619] 和 BLOSUM [R-620] 矩阵 。 清 参看 ， 

S. Kawashima, and M. Kanehisa, Nucleic Acids Res. 28 (2000) 374. 
网 址 : 

http://www.genome.ad.jp/aaindex/ 

ftp://ftp.genome.ad.jp (/db/genomenet/aaindex/) 

北京 大 学 生物 信息 中 心 [R- 166] 有 镜 象 . 


84.12 和 蛋白质 结构 和 分 类 数据 库 


我 们 在 3.5.6 小 节 中 已 经 提 到 蛋白 质 结构 的 几 个 层次 ,讨论 了 一 些 尚 
未 统一 的 名 词 术 语 的 详 法 . 简 而 言 之 , 一 级 结构 是 氨基 静 的 排列 蚌 序 ， 即 
84.11 节 站 的 蛋白 质 序列 ,二 级 结构 主要 是 出 氢 键 维持 的 a 螺旋 和 9 片 。 
三 级 结构 是 完全 折合 好 的 蛋 自 上 质 的 空间 结 移 .四 级 结构 是 多 个 盘 征 质 亚 
基 组 成 蛋白 质 复 合体 的 结构 . 在 最 细 的 层次 、 巾 X 射线 衍射 和 核磁 共振 
(NMR) 等 实验 方法 确定 的 蛋白 质 中 原子 的 三 维 坐 标 ， 构 成 PDB [R-441j 
这 样 的 蛋白 质 结构 数据 库 的 主要 内 容 。 二 级 结构 和 三 级 结构 之 间 的 模 体 
(motif) 、 结 构 域 (domain) WI “AE” 或 “折合 单元 ” (fold) ， 对 于 蛋 
白质 结构 的 分 类 和 和 预测 有 重要 作用 . 

R-441 PDB, $ AMH KHE (Protein Data Bank). 1971 年 建立 于 美 
国 布鲁克 海 文 国 家 实验 室 [R-163] ， 当 时 只 有 7 个 结构 . CRH X 
射线 衔 射 和 核磁 共振 实验 测定 的 生物 大 分 子 三 维 结构 数据 、 从 1998 
年 10 月 1 日 起 PDB 的 管理 交 给 RCSB[R-442]. 2000 年 6 月 7 日 
PDB 库 中 有 12 474 个 条 目 . X T PDB 库 的 较 近 介绍 见 : 

H. M. Berman 等 8 位 作者 ， Nucleic Acids Res. 28 (2000) 235 - 242. 
网 址 : 
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http://www.rcsb.org/pdb/ 
在世 界 许多 地 方 设 有 PDB ARA. 北 东 大 学 生物 信息 中 心 [R- 166) 
和 北京 大 学 生物 信息 服务 器 [R-167] 都 有 镜 象 . 

R-442 RCSB, 结构 生物 信息 学 合作 研究 组 织 (Research Collaboration for 
Structural Bioinformatics) ， 现 在 是 PDB [R-441] 数据 库 的 管理 者 . 
网 址 : 
http://www.rcsb.org/ 

R-443 MSD ,大 分 子 结构 数据 库 (Macromolecular Structure Database) , 
乃 是 交 由 RCSB 管理 后 的 PDB 年 的 正式 名 称 ， 不 过 PDB 仍然 是 当 
前 通用 的 名 字 . 请 看 PDB [R -441] . 

R-444 PDBNEW , 下 -- 版 PDB 库 东 式 发 布 前 收 到 的 人 钙 新 或 中 新 条 目 . 
网 址 : 
http://www.pdb.bnl.gov/ 
北京 大 学 生物 信和 总 中 心 IR-166] i (6 BEL. 

R-445 PDBFinder, i PDB [R-441]. DSSP [R-465] 、HSSP |R 466] 基 
础 上 建立 的 二 级 库 ， 它 包含 PDB 序列 、 作 者 、 玉 因子、 分辨 率 、-- 
级 结构 等 。 这些 信息 不 易 从 PDB 中 直接 读 取 。 随 着 PDB 库 每 次 发 
布 新 版 ， PDBFinder 在 EBI [R-131] 自动 生成 ， 可 能 有 几 天 延迟 , 
il fs. 

R. W. W. Hooft, C. Sander, M. Scharf, and G. Vriend, CABIOS 12 
(1996) 525 — 529. 

网 址 : 

http://www.sander.embl-heidelberg.de/pdbfinder/ 
ftp://swift.embl-heidelberg.de (/pdbfinder) 

R-446 PDB at a Glance 清单 。 PDB [R-441] 数据 库 中 的 每 个 条 上 骨节 4 
位 数字 和 字母 编号 , 无 法 简单 地 从 编号 看 出 是 什么 样 的 熏 白 质 . NIH 
的 分 子 模 氢 网 页 上 名 为 “PDB at a Glance ”的 这 个 超 文 本 清单 ， 帮 
勋 用 户 按 蛋 白质 的 功能 分 类 迅速 查找 其 PDB 编号 ， 网 址 ， 
http://cmm.info.nih.gov/modeling/pdb.at.a.glance.html 

R-447 PDBselect 数据 库 . PDB 库 中 有 大 量 同 源 蛋 白 的 数据 . 人 研究 工作 
中 往往 需要 从 中 挑选 出 每 个 同 源 家 族 的 代表 ， 形 成 不 含 高 度 同 源 蛋 
自 的 结构 数据 子 集合 。PDBselect 库 就 是 这 样 一 个 子 集合 。 其 最 初 描 
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述 见 : 

U. Hobohm, and C. Sander, Protein Science 3 (1994) 522. 

网址 : 

http://swift.embl-heidelberg.de/pdbsel/ 

ftp://ftp.embl-heidelberg.de (/pub/databases 
/protein.extras/pdb.select) 

R-448 PDBsum 是 PDB (R-441] EE c 3s fis 89) E f F 9] e B9 9 A Ap B, 
以 及 一 些 衍生 数据 . 例如 ， 原 来 的 坐标 数据 变 成 了 图 形 ， 增 加 了 从 
CATH [R-455], PROSITE {R-406] 等 库 得 到 的 简明 信息 等 。 这 是 
University College London 维护 的 一 个 项 目 ， 描 述 见 : 

R. A. Laskowski 等 6 位 作者 ， Trends Biochem. Sci. 22 (1997) 488 - 
490. 

网 址 : 

http://www.biochem.ucl.ac.uk/bsm/pdbsum/index.html 

R-449 BioMagResBank , 简称 BMRB ， 是 关于 多 肪 、 蛋 白质 和 核 骏 的 
核磁 共振 数据 库 、 它 的 结构 数据 与 PDB [R-441] 有 些 恒 复 ， 但 也 收 
入 了 化 学 位 移 、J 耦合 、 弛 玲 速 率 等 PDB 中 没有 的 数据 ， 网 址 : 
http://www.bmrb.wisc.edu/ 

R-450 CSD ， 剑 桥 结构 数据 库 (The Cambridge Structural Database) , iX 
实际 上 是 最 老 的 一 个 结构 数据 库 。 它 不 限于 生物 大 分 子 ， 目 前 包含 
20 万 种 以 上 有 机 和 金属 有 机 化 合 物 的 由 共 射线 或 中 子 衍射 测定 的 结 
构 数 据 . 每 一 条 目 按 “ 维 数 "” 组 织 : 一 维 是 文献 数据 ,二 维 化 学 式 , 三 
维 分 子 结 构 和 三 维 上 晶体 结 罗 . 此 库 虽 不 常用 于 蛋白质 折 重 的 模 氢 ， 
但 对 于 配 位 结合 位 点 的 模拟 以 及 和 蛋白质 设计 颇 为 有 益 . 请 参看 : 

D. G. Watson, J. Res. Natl. Inst. Stand. Technol. 101 (1996) 227 — 
229. 

网 址 ， 

http://www.ccdc.cam.ac.uk/prods/csd.html 

R-451 NRL-3D ， 三 维 结构 已 经 确定 的 蛋白 质 序列 库 。 可 以 把 新 的 蛋白 
质 序列 与 此 库 中 序列 比较 ， 以 羯 断 是 否 与 结构 已 知 的 蛋白 质 相 似 . 
2000 年 1 月 底 的 第 26.01 版 收入 14 791 个 蛋白 质 . 网 址 : 
http://pir.georgetown .edu/pirwww/dbinfo/nrl3d.html 
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http://www.gdb.org/Dan/proteins/nrl3d.html 

及 -452 FAMBASE £& 8i 4- 2E EAIALRCC IO (CEP PUR 6, EH B Fm E 
同济 性 搜索 . 请 参看 PIR[R-404| 的 引文 。 网 址 : 
http://pir.georgetown.edu/pirwww/dbinfo/fambase.html 

R-453 ProtFam ,蛋白质 超 家 族 的 序列 联 配 数据 库 . € PIR [R-404] Hé 
的 有 机 组 成 部 分 。 网 址 : 
http://www.mips.biochem.mpg.de/proj/protfam/protfam/ 

R-454 SCOP ， 和 蛋白 质 结 构 分 类 数据 库 (Structural Classification Of Pro- 
teins) . 这 是 对 已 知 的 和 蛋白质 三 维 结构 进行 手 二 分 类 得 到 的 数据 库 . 
请 参看 : 
L. Lo Conte 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 257 - 259. 
网址 : 
http://scop.mrc-lmb.cam.ac.uk/scop/ 
它 在 址 界 许 多 地 方 设 有 镜 象 点 。 中国 镜 象 在 北京 大 学 物理 化 学 研究 
所 : 
http://www.ipc.pku.edu.cn/scop/ 

R-455 CATH ， 和 蛋白 质 结构 与 功能 关系 分 类 数据 库 . 这 是 把 组 白质 结构 
城 按 四 个 层次 进行 分 类 的 数据 库 . UAE “j” (Class Bp 
C) ，“ 构 架 ” (Architecture 即 A) ith (Topology BP T), AR AXW 
超 家 族 (Homologous superfamily BA H). EARM RKA RNAF., É 
有 通 向 PDB 总 结 文件 和 OWEL 库 的 超 链 接 。 详细 描 述 见 : 
F. M. G. Pearl 等 8 位 作者 ， Nucleic Acids Res. 28 (2000) 277 - 282. 
网 址 : 
http://www.biochem.ucl.ac.uk/bsm/cath/ 

R-456 PIR-ALN , 蛋白 质 序列 联 配 数据 库 , Bri Fe] — AR HE PAL (CU COE RI TE 
55% 以 内 ) Fe URS EX IG. — T EC ALAS IL ORE FUR HK NE, EL 
及 不 间 蛋 白质 的 同 源 结 构 域 序列 片段 的 联 配 。2000 年 1 月底 的 22.03 
版 收入 4 076 个 条 目 。 库 的 描述 见 : 
G. Y. Srinivasarao 等 6 位 作者 ， Nucleic Acids Res. 27 (1999) 284 
285. 
G. Y. Srinivasarao 等 5 位 作者 ， Bioinformatics 15 (1999) 382 - 390. 
网 址 : 
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http://pir.georgetown.edu/pirwww/dbinfo/piraln.html 
http://wwwv-nbrf.georgetown.edu/pir/alndb.htm1i 

R-457 3Dee ， 蛋 白质 结构 域 定 义 的 数据 库 、 包 括 了 PDB [R-441] P & 
20 个 以 上 残 基 的 蛋白 质 序 列 的 结构 域 定义 , 但 不 包括 理论 模型 . 所 有 
结构 域 按 序列 相似 性 和 结构 由 似 性 分 成 聚 类 . 所 得 家 族 按 层 次 组 织 
存储 。 3Dee 具有 与 SCOP [R-454] 类 似 的 、 到 本 地 计算 机 上 RasMol 
程序 [R-777] 的 接口 ， 可 用 后 者 显 东 三 维 图 象 。 网 址 : 
http://circinus.ebi.ac.uk:8080/3Dee/ 

R-458 ProTherm ， 和 蛋白 质 及 其 变异 体 热 力学 数据 库 ， 包 括 几 种 热力 学 
参数 的 数值 ， 如 击 布 斯 自由 能 、 熔 、 热 容 、 转 变 过 度 等 这些 参 数 有 
利于 理解 蛋白 质变 异 的 结构 和 和 稳定 性 . 它 还 包括 关于 二 级 结构 、 野 生 
型 残 基 、 实 验 条 件 (pH 值 、 温 度 等 ) 、 每 种 数据 的 测量 方法 等 信息. 
ProTherm 2.0 版 的 描述 见 : 
M. M. Gromiha 等 7 位 作者 ， Nucleic Acids Res. 2 (2000) 283 - 
285. 
网 址 : 
http://www.rtc.riken.go.jp/protherm.html 

R-459 ASTRAL 是 基于 SCOP !R-454j 数据 上 库 的 一 组 分 析 恒 白质 结构 和 
蛋白 质 序列 用 的 数据 库 和 起 具 , 包括 SCOP 结构 域 对 应 的 序列 库 . 按 
所 需 相 似 度 组 织 的 低 元 余子 集 、 由 SCOP 1.38 产生 的 结构 对 比 库 ， 
以 及 工具 和 索引 。 请 参看 ， 
S. E. Brenner, P. Koehi, and M. Levitt, Nucleic Acids Res. 28 (2000) 
254 — 256. 
网 址 : 
http://astral.stanford.edu/ 

R-460 RESID ， 和 蛋白 质 翻 译 后 修饰 情况 的 数据 库 ， 包 括 描 述 性 的 关于 化 
学 、 结 构 和 文献 的 信息 . 2000 年 1 月 底 的 第 20.02 版 共 收 入 275 个 
条 目 . 详 见 : 
J. S. Garavelli, Nucleic Acids Res. 28 (2000) 209 - 211. 
网 址 : 
http://pir.georgetown.edu/pirwww/search/textresid.html 
http://www-nbrf.georgetown.edu/resid/get .html 
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R-461 SMART , 是 简单 模块 构架 搜索 十 具 (Simple Modular Architecture 


Research Tool) 的 缩写 . CHEMBE BO REESE ZU Xe CELA: Vo fere e Sy 
(signal transduction) 的 蛋白 质 结 构 域 ， 描 述 见 : 

J. Schultz, F. Milpetz, P. Bork, and C. P. Ponting, Proc. Nati. Acad. 
Sci. USA 95 (1998) 5857 - 5864. 

JC PE OK D" 760 8 IRL PP TR EAR RO 06 5 Hs P RC, 细菌 双 组 元 调控 系统 ， 
以 及 与 DNA 、 RNA, RERAMA SR IDE ER ER Hg bk. xx T 
基于 了 网 页 的 数据 库 的 最 近 描 述 见 : 

J. Schultz, R. R. Copley, T. Doerks, C. P. Ponting, and P. Bork, Nucleic 
Acids Res. 28 (2000) 231 — 234. 

网 址 : 

http://SMART.embl-heidelberg.de/ 


R-462 PROMISE 数据 库 . 其 名 称 来 自 The PROsthetic groups and MEtal 


Ions in protein SitEs 短语 中 的 一 些 字 母 ， 即 蛋白 质 活性 位 点 的 畏 基 
中 心 (prosthetic center) 和 金属 离子 这 些 有 生物 学 意义 的 无 机 组 分 的 
数据 库 . FA: 

K. N. Degtyarenko, A. C. T. North, and J. B. C. Findlay, Nucleic Acids 
Res. 27 (1999) 233 - 236. 

网 址 : 

http://bmbsgiil.leeds.ac.uk/bmbknd/promise/MAIN.html 


R-463 MMDB , 蛋白 质 分 子 模型 数据 库 (Moleculer Modeling Database) , 


由 NCBI 的 MMDB 组 维护 .这 是 Entrez 检索 工具 所 使 用 的 三 维 结 
构 数 据 库 ， 它 以 ASN.1 格式 [R-180] 反映 PDB 库 中 的 结构 和 序列 数 
据 ， 引 文 链接 到 MEDLINE [R-599). MMDB 有 一 个 配套 的 三 维 结 
构 显 示 程 序 Cn3D ， 清 参看 [R-779]. 详 见 ， 

Y. L. Wang 等 7 位 作者 ， Aucteic Acids Res. 28 (2000) 243 - 245. 
网 址 : 

http://www.ncbi.nlm.nih.gov/Structure/ 
ftp://ncbi.nlm.nih.gov (/mmdb) 


R-464 VAST ,矢量 联 配 搜 索 工具 (Vector Alignment Search Tool) , JH 


包含 PDB 中 所 有 结构 域 的 结构 和 序列 的 联 配 数据 ， 是 寻找 邻近 三 维 
结构 时 的 原始 数据 .但 它 使 用 ASN.1 格式 [R-180], — EHE PUR S 
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HiFi. HEN. 

J. F. Gibrat, T. Madej, and S. Bryant, Curr. Opin. Struct. Biol. 6 
(1996) 377 - 385. 

网 址 : 

http://www.ncbi.nlm.nih.gov/Structure/vast.html 
ftp://ncbi.nlm.nih.gov (/mmdb/vastdata/) 

R-465 DSSP , PDB 库 中 所 有 蛋白质 条 目的 二 级 结构 归属 数据 库 (Data- 
base of Secondary Structure assignments for all Protein entries) , 网 
hb: 
http://swift.embl-heidelberg.de/dssp/ 
ftp://ftp.embl-heidelberg.de (/pub/databases/dssp/) 

此 库 最 早 的 描述 见 : 
W. Kabsch, and C. Sander, Biopolymers 22 (1983) 2577 - 2637. 
北京 大 学 生物 信息 中 心 [R-166] 有 镜 象 . 

R-466 HSSP 、 按 同 源 性 导出 的 蛋白 质 二 级 结构 数据 库 . 每 一 条 PDB [R- 
441] 项 目 都 有 一 个 对 应 的 HSSP 文件 。 因此， 应 先 按 蛋 白质 的 PDB 
编号 、 例 如 1dba 在 HSSP 的 INDEX 中 查找 1dba.hssp ， 然后 再 读 取 
压缩 文件 1dba.hssp.Z . 当然 ,通过 WWW 服务 器 查找 更 为 方便 . X 
于 HSSP 请 参看 ， 

C. Dodge, R. Schneider, and C. Sander, Nucleic Acids Res. 26 (1998) 
313 - 315. 

网 址 : 

http://www.sander.embl-heidelberg.de/hssp/ 
ftp://ftp.embl-heidelberg.de (/pub/databases/hssp) 
ftp://ftp.embl-ebi.ac.uk (/pub/databases/hssp) 

北京 大 学 生物 信息 中 心 [R-166] 有 HSSP HRR. 

R-467 Dali/FSSP , 3& T PDB 数据 库 中 现 有 和 蛋白质 三 维 结构 ， 用 自动 结 
构 对 比 程序 Dali 逐一 比较 而 形成 的 折 秋 单元 和 家 族 分 类 库 . VEL: 
L. Holm, and C. Sander, Nucleic Acids Res. 27 (1999) 244 - 247. 

此 库 在 PDB 库 每 次 新 版 后 自动 更 新 ， 其 网 址 : 
http://www.embl-ebi.ac.uk/dali/ 
bttp://croma.ebi.ac.uk/dali/fssp/ 
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ftp://ftp.ebi.ac.uk (/pub/databases/fssp) 
北京 大 学 生物 信息 中 心 [R-166] E 88. 


R-468 3d-ali fig Hr, 搜集 彼此 相关 的 蛋白 质 序列 和 结构 数据 . 描述 见 : 


S. Pascarella, F. Milpetz, and P. Argos, Prot. Eng. 9 (1996) 249 - 251. 
网 址 : 

http://www.embl-heidelberg.de/argos/ali/ali.html 
ftp://ftp.embl-heidelberg.de (/pub/databases/3d ali/) 
ftp://ftp.ebi.ac.uk (/pub/databases/3d ali) 


R-469 DEF , Æ Á d Æ PRICE (Database of Expected Fold 


classes) 。 它 的 构建 基于 3d-ali [R-468] 数据 ， 请 参看 : 

M. Reczko, D. Karras, and H. Bohr, Nucleic Acids Res. 25 (1997) 235. 
网 址 : 

http://zeus.cs.uoi.gr/neural/biocomputing/def.html 


R-470 INFOGENE , Sanger 中 心计 算 基因 组 学 小 组 维护 的 、 各 基因 组 


测序 计划 所 提供 的 序列 中 已 知 的 蛋白 质 和 预测 出 的 基因 与 蛋白 质 的 
数据 库 . 它 有 一 个 图 形 界 面 。 描 述 见 : 

V. V. Solovyev, and A. A. Salamov, Nucleic Acids Res. 27 (1999) 248 
- 250. 

网 址 : 

http://genomic.sanger.ac.uk/inf/infodb.html 


R-471 TMBase ， 跨 膜 蛋白 数据 库 . 主要 基于 SWISS-PROT [R-401] 的 路 


膜 绰 白质 片段 .描述 网 : 

K. Hoffmann, and W. Stoffel, Biol. Chem. Hoppe-Seyler. 374 (1993) 
166. 

Rh: 

ftp://ulrec3.unil.ch (/pub/tmbase) 

ftp://ncbi.nlm.nih.gov (/repository/TMbase) 


R-472 PRESAGE 是 关于 结构 基因 组 学 的 一 个 数据 库 ， 它 为 库 中 每 个 蛋 


白质 搜集 了 反映 当前 实验 状况 、 结 构 、 模 型 和 研究 建议 的 注释 。 详 
n. 

S. E. Brenner, D. Barken, and M. Levitt, Nucleic Acids Res. 27 (1999) 
251 - 253. 
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网 址 : 
http://presage.stanford.edu/ 

R-473 SBASE ， 带 有 注释 的 蛋白 质 序列 片段 、 即 蛋白 质 结构 域 的 数据 
HE, Hi ICGEB [R-152] 建立 和 维护 .关于 其 7.0 版 的 介绍 见 ， 

J. Murvai, K. Vlahovicek, E. Barta, B. Cataletto, and S. Pongor, Nu- 

cleic Acids Res. 28 (2000) 260 - 262. 

Wht: 

http://www.icgeb.trieste.it/sbase/ 

ftp://icgeb.trieste.it (/pub/SBASE) 

北京 大 学 生物 信息 中 心 |[R-166] 有 镜 象 。 

由 于 从 测序 得 到 的 DNA 翻译 出 来 的 氨基 替 序 列 迅速 增加 , 对 这 些 可 
能 的 新 蛋白 质 的 功能 和 结构 的 预测 越 来 越 多 地 依靠 同 已 知 的 蛋白 质 序列 
比较 . 我 们 在 3.5.6 小 节 中 提 到 过 , 蛋白 质 结 构 域 的 比较 对 于 确定 同 源 性 极 
为 重要 . 现在 已 经 有 一 批 把 各 种 蛋白 质数 据 库 中 的 模 体 、 轮 廓 、 结 构 域 等 
局 域 模式 信息 集成 起 来 的 数据 库 , 如 InterPro[R-474] 、BLOCKS+{IR-477] 
等 . 

R-474 InterPro 、 集 成 的 蛋白 上 质 结构 域 和 功能 位 点 数据 库 ， 目 前 仍 在 试 
运行 . 它 把 SWISS-PROT [R-401] 、 TrEMBL [R-402], PROSITE 
[R-406] 、 PRINTS [R-479] PFAM [R-478] 、 ProDom [R-480] 等 
数据 库 提供 的 蛋白 质 序列 中 的 各 种 局 域 模式 (pattern) ， 如 结构 域 、 
模 体 等 信息 统一 起 来 此 库 在 果 蝇 基因 组 [R~369] B9: EPI NEDI, 
线虫 与 果 蝇 的 比较 基因 组 学 研究 中 已 经 发 挥 作用 . 网址: 
http://www.ebi.ac.uk/interpro/ 

R-475 HITS ,瑞士 ISREC [R-143] 新 近 建立 的 一 个 蛋白 质 结构 域 数据 库 ， 
它 的 方便 之 处 在 于 给 定 恒 白质 序列 立即 回答 其 中 含有 哪些 模 体 , 给 出 
模 体 立即 返回 SWISS-PROT 等 数据 库 中 含有 该 模 体 的 蛋白 质 清单 ， 
并 且 带 有 相关 链接 。 网 址 : 
http://www.isrec.isb-sib.ch/cgi-bin/hits/hits index 

R-476 BLOCKS, 蛋白 质 分 类 与 同 源 性 数据 库 , 包含 蛋白 质 家 族 中 保守 区 
域 的 组 块 (blocks) 多 序列 联 配 的 数据 . 这 个 数据 库 是 根据 PROSITE 
[R-406] 中 的 条 月 ,用 BLOSUM [R-620] 打分 矩阵 作 序 列 联 配 生成 ， 
并 随 PROSITE 库 的 每 个 新 版 更 新 ， 详 见 ， 
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J. G. Henikoff, E. A. Greene, S. Pietrokovski, and S. Henikoff, Nucleic 
Acids Res. 28 (2000) 228 -. 230. 

厌 始 数据 库 在 美国 西雅图 的 FHCRC ， 即 Fred Hutchinson EAEI R 
中 心 ， 网址 : 

http://www.blocks.fhcrc.org/ 

ftp://ncbi.nlm.nih.gov (/repository/blocks/UNIXDOS) 

X T BLOCKS EWAH, xp up Him FRH (在 主 文中 写 HELP): 
mailto: blocksQOhoward.fhcrc.org 

北京 大 学 生物 信息 中 心 [R-166] 有 和 镜 象 . 

R-477 BLOCKS+ 数据 库 . BLOCK 数据 库 基 于 专家 审读 过 的 PROSITE 
库 ， 质 量 较 好 ， 但 库 中 条 目 有 限 . 因此 ， 同 一 批 作者 又 发 展 了 一 个 
BLOCK-- 数据 库 。 它 由 三 个 经 过 专家 审读 的 数据 库 PROSITE [R- 
406]. PRINTS |R-479| 和 PFAM-A [R-478] ， 眠 及 两 个 自动 产生 的 
库 ProDom [R-480] 和 DOMO [R-482] 出 发 ， 使 用 PROTOMAT 程 
序 逐 步 语 加 新 的 组 到. 目前 ， 
http://www.blocks.fhcrc.org/ 

网 页 的 首选 库 就 是 BLOCK+ . HSA. 
S. Henikoff, J. G. Henikoff, and S. Pietrokovski, Bioinformatics 15 
(1999) 471 - 479. 

R-478 PFAM 34 PFAM-A ,高 质量 的 蛋白 质 结构 域 家 族 数 据 库 . 它 搜索 
蛋 和 卢 质 多 序列 联 配 和 隐 马 可 夫 模 型 数据 ， 已 经 达到 网 SWISS-PROT 
[R-401] 和 TrEMBL [R-402] 中 半数 以 上 和 蛋白质 瑟 配 .2000 年 1 上 月 发 
行 的 50 版 ,有 2008 个 蛋白 质 结 构 域 家 族 , 与 SWISS-PROT {R 401] 
(第 38 版 ) 中 6496 的 序列 有 匹配 。 PFAM 的 重要 用 途 是 迅速 自动 地 
把 DNA 序列 中 预测 出 的 蛋白 质 分 成 结构 域 家 族 ， 从 击 有 助 于 对 翻 
译 出 的 蛋白 质 散 注释. 这 时 或 者 使 用 HMMer [R-739] 软件 ， 或 者 用 
Wise2 程序 包 ， 后 者 的 网 址 ; 
http://www.Ssanger.ac.uk/Software/Wise2/ 

PFAM 库 第 4.3 版 的 描述 见 : 

A. Bateman 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 263 — 266. 
网 址 ， 

http://www.sanger.ac.uk/Software/Pfam/ (英国 网 点 ) 
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http://www.cgr.ki.se/Pfam/ (瑞典 网 点 ) 
http://pfam.wusti.edu/ (美国 网 点 ) 
ftp://ftp.sanger.ac.uk (/pub/databases/Pfam) 
北京 大 学 生物 信息 中 心 [R-166] BERR. 

R-479 PRINTS 数据 库 最 近 改 名 为 PRINTS-S, ig Æ — T EU NL 
的 指纹 (fingerprint) 和 模 体 数据库. 详 见 : 
T. K. Attwood 等 3 位 作者 ， Nucleic Acids Res. 28 (2000) 225 - 227. 
网 址 : 
http://www.bioinfo.man.ac.uk/dbbrowser/PRINTS/ 
ftp://ftp.ebi.ac.uk (/pub/databases/prints/) 
ftp://ncbi.nlm.nih.gov (/repository/PRINTS/) 
北京 大 学 生物 信息 中 心 [R-166] SRA. 

R-480 ProDom ， 自 动产 生 的 蛋白 质 结 构 域 家 族 数 据 库 ， 详 见 : 
F. Corpet, F. Servant, J, Gouzy, and D. Kahn, Nucleic Acids Res. 28 
(2000) 267 - 269. 
P4 hi: 
http://www.toulouse.inra.fr/prodom.html 
http://protein.toulouse.inra.fr/prodom.html 
ftp://ftp.toulouse.inra.fr (/pub/prodom) 
北京 大 学 生物 信息 中 心 [R-166) 有 镜 象 。 

R-481 ProDomCG 数据 库 与 ProDom [R-480] 类 似 , 是 从 完全 基因 组 自动 
产生 的 蛋白 质 结 构 域 家 族 数据 库 。 请 参看 ProDom 的 引文 和 网 址 . 

R-482 DOMO ， 和 蛋白 质 结构 域 数据 库 . 法 国 由 家 生物 信息 中 心 INFO- 
BIOGEN (R-148] 维护 的 DOMO 数据 库 ， 自 动 分 析 蛋 和 月 质 一 级 序列 
库 SWISS-PROT [R-401] 和 PIR [R-404] ， 找 出 其 中 的 结构 域 并 且 把 
它们 分 给 . 1999 4 7 F) DOMO 2.0 版 中 共有 来 自 83 054 CEPA 
序列 的 99 058 个 结构 域 ， 后 者 又 分 为 8 877 组 。 请 参看 : 
J. Gracy, and P. Argos. Bioinformatics 14 (1998) 164 - 173. 
Bg hl: 
http://www.infobiogen.fr/services/domo/ 
ftp://ftp.infobiogen.fr (/pub/domo/) 
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R-483 GRBase ， 这 是 参与 基因 调控 的 蛋白 质 的 数据 库 (Gene Regulation 
dataBase) . Hiit w: 
B. Collier, and M. Danielsen, Nucleic Acids Res. 24 (1996) 219 220. 
网 址 : 
http://uww.access.digex.net/^regulate/ 
ftp://ftp.trevigen.com (/pub/Tfactors/) 
R-484 PMD ， 蛋 白质 突变 体 数 据 库 (Protein Mutant Database) ， 是 一 -个 
集成 了 和 蛋白 质 序列 和 三 维 结构 的 显示 和 提取 系统 . HxBU. 
T. Kawabata, M. Ota, and K. Nishikawa, Nucleic Acids Res. 27 (1999) 
355 — 357. 
F4 AE: 
http://pmd.ddbj.nig.ac.jp/ 
R-485 O-GLYCBASE , KAAREL ABEE. 它 搜集 了 侠 少 有 一 
个 实验 证 实 的 糖 基 化 位 点 的 序列 . 它 的 一 个 子 集 O-Unique 是 不 含 相 
同 糖 基 化 位 点 的 库 . 1999 年 初 的 4.03 版 有 180 AGRARE. 请 
参看 ， 
R. Gupta 等 5 位 作者 ， Nucleic Acids Res. 27 (1999) 370 - 372. 
Fi bi: 
http://www .cbs.dtu.dk/databases/ÜGLYCBASE/ 
ftp://ftp.cbs.dtu.dk 
在 子 目录 /pub/Oglyc 中 取 Oglyc.base 和 0-Unique .seq 两 个 义 件 . 
R-486 ORDB , 嗅觉 受 体 蛋白 质 序列 数据 库 . A aik (olfactory receptor) 
是 最 大 的 真 核 生 物 基 因 家 族 . ORDB 库 查 供 分 析 这 些 与 G GET 结 
合 的 受 体 功能 的 工具 . A. 
' E.Skoufos 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 341 - 343. 
Fia. 
http://ycmi.med.yale.edu/senselab/ordb/ 
http://paella.med.yale.edu/ 
cgi-bin/receptor.top/DB.CGI.p/ 
http://paella.med.yale.edu/cgi-bin/receptor top 
/Public/cgiwrap/healy/ 
此 库 有 一 部 分 是 不 公开 的 . 
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R-487 CarbBank 亦 称 CCSD ， 复 杂 碳 水 化 合 物 结构 数据 库 ， 通 常 与 蛋 
白质 结构 数据 库 归 在 一 起 。 网 址 : 
http://www.ccrc.uga.edu 
http://mondi1.ccrc.uga.edu 
ftp://ncbi.nlm.nih.gov (/repository/carbbank) 
中 国 科 学 院 微 生物 研究 所 [R-170] i2 £j BE S. 
R-488 SWISS-3DIMAGE ， 重 白质 三 维 图 象 和 和 PDB [R-441] 浏览 器 。 
请 参看 : 
M. C. Peitsch, T. N. C. Wells, D. R. Stampf, and J. L. Sussman, Trends 
Biochem. Sci. 20 (1995) 32 - 83. 
网 址 ; 
http://www.expasy.ch/sw3d/ 
http://pdb.pdb.bnl.gov/expasy/sw3dimg/sw3d-top.html 
ftp://ftp.expasy.ch (/databases/swiss-3dimage/) 
北京 大 学 生物 信息 中 心 有 镑 象 ; 
http://exapsy.pku.edu.cn/sw3d/ 
ftp://ftp.expasy.pku.edu.cn (/databases/swiss-3dimage/) 
R-489 IMB , Xr T:-HEPISRPE. 德国 耶 那 的 生物 大 分 子 三 维 图 象 库 强 
调 视 象 化 和 分 析 工 具 、 它 提供 所 有 PDB [R-441】 和 NDB [R -247] 库 
中 条 目的 形象 信息 请 参看 ; 
J. Reichert, A. Jabs, P. Slickers, and J. Suhnel, Nucleic Acids Res. 28 
(2000) 246 — 249. 
网 址 : 
bttp://www.imb-jena.de/IMAGE.html 
R-490 Biolmage, ， 多 维 生 物 学 图 象 数 据 库 ， 请 参看 : 
J. M. Carazo 等 16 位 作者 ， Nucleic Acids Res. 27 (1999) 280 - 283. 
网 址 : 
http://www-emb).bioimage.org/ 
http://www.bioimage.org/ 
R-491 MoIMovDB , Hif AKF DEP S. WERL SE HEP Tox ah iE 
M. 网 址 : 
http://bioinfo.mbb.yale.edu/MolMovDB/ 


150 第 4 章 生物 信息 数据 库 


R-492 ModBase 、 蛋 白质 结 构 模 型 比较 数据 血 。 请 参看 : 
R. Sanchez 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 250 . 253. 
网 址 ， 
http://pipe.ruckefeller.edu/modbase/ 


84.13 ”比较 基因 组 学 和 蛋白质 组 学 数据 库 


蛋白 质 间 源 家 族 的 划分 ， 对 于 确立 物种 亲缘 关系 和 预测 新 蛋白 质 序 
列 的 功能 有 重要 意义 . 同 涯 蛋白 质 (homolog) 进一步 区 分 为 直系 同 源 (or- 
tholog) WÈ KRW (paralog) . 直系 辣 源 是 指 在 不 同 物 种 中 具有 相同 功能 
和 共同 起 源 的 基因 ， 例 如 哺乳 动物 的 胰岛 素 基 因 . 旁 系 间 源 是 指 在 同一 物 
种 内 具有 有 不同 功能 、 但 有 共 风 起 源 的 基因 ， 例 如 ， 人 网 是 起 源 于 珠 和 蛋白 的 a 
珠 重 白 、 8 珠 蛋 白 和 肌 红 蛋白 。 关 于 旁 系 和 直系 同 源 的 定义 请 参看 : 
R-493 W. M. Fitch, Syst. Zool. 19 (1970) 99. 


迅速 增长 的 重 和 白质 数据 库 ， 为 蛋白 质 分 类 和 同 源 家 族 的 划分 提供 了 
基础 . 1997 年 在 同一 期 美国 《和 科学》 周刊 上 曾 有 两 篇 文章 讨论 这 个 问 
B. 文章 作者 多 是 某 些 数据 库 的 作者 : 
R-494 S. Henikoff 等 6 位 作者 ， “Gene families: the taxonomy of protein 
paralogs and chimeras”, Science 278 (1997) 609 — 614. 
R-495 R. L. Tatusov, E. V. Koonin, and D. J. Lipman, *A genomic perspec- 
tive on protein families", Science 278 (1997) 631 — 637. 


文献 [R.-495] Bm 4E 5 40131 T A AFMR 2S (Cluster of Orthiologous 
Groups, ， 简 称 COG) 的 概念 ， 并 且 以 分 属于 17 个 亲缘 系 的 21 个 完全 基 
因 组 中 的 蛋白 质 为 基础 ， 建 六 了 COG 数据 库 IR-496] . 
R-49 COG ,直系 同 源 聚 类 数据 库 。 目前 收入 2 091 个 COG .关于 这 个 
数据 库 及 其 检索 于 具 的 撒 述 见 ， 
R. L. Tatusov, M. Y. Galperin, D. A. Natale, and E. V. Koonin. Nucleic 
Acids Res. 28 (2000) 33 - 36. 
网 址 : 
http://www.ncbi.nlm.nih.gov/CO0G/ 
还 请 参考 WIT [R-548] 网 页 下 的 Ortholog Clusters 选项 ， 耶 里 的 定 
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义 更 松散 一 些 ， 

R-497 GeneCensus ,耶鲁 大 学 生物 信息 学 研究 室 维护 的 各 物种 基因 组 的 
比较 数据 库 ， 着 重 于 扣 普 单元 的 结构 对 比 。 网 址 ; 
http://bioinfo.mbb.yale.edu/genome/ 

R-498 XREFdb , nfi FL 2) H Xn £8 5X ^E 12 05 36 B3 RUE fe 6 X SL HH CHI E. 
参看 : 

R. Ploger 等 7 位 作者 ， Nucleic Acids Res. 28 (2000) 120 - 122. 
网 址 : 
http://ncbi.nlm.nih.gov/XREFdb/ 

R-499 YPD , 酿酒 酵母 蛋白 质 给 数据 库 . 原来 YPD 中 的 P 是 指 番 白 质 ， 
现在 的 意义 是 蛋白 质 组 (proteome) ， 更 强调 其 生物 性 质 及 功能 . 详 
见 : 

M. C. Costanzo 等 14 位 作者 ， Nuctleic Acids Res. 28 (2000) 73 - 76. 
网 址 : 

http://www.proteome.com/YPDhome.html 

ftp://isis.cshl.org (/pub/yeast/YPD) 

JE SCA E ^E o EH [R-166] E BER. 

R-500 WormPD ， 线 虫 蛋白 质 组 学 数据 库 . 详 见 YPD [R-499] 的 引文 和 
网 址 . 
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虽然 每 个 细胞 里 都 有 包含 全 套 基因 信息 的 DNA ， 人 了 但 在 特定 的 组 织 
里 ， 在 一 定 的 发 育 附 段 和 环境 中 ， 只 有 一 部 分 基因 被 “表达 "， 即 最 终 翻 
译 为 一 白质 。 不 同 的 生理 或 病理 条 件 下 ， 同 一 基因 的 表达 速率 也 不 断 变 
化 着 。 DNA 芯片 和 微 阵列 技术 的 发 展 ， 使 人 们 得 以 研究 大 量 基 因 同 时 表 
达 的 情况 (参看 $5.10 节 关 于 大 规模 基因 表达 算法 的 讨论 ) .与 单个 基因 
表达 有 关 的 转录 因子 数据 库 TRANSFAC [R-219] 等 ， 已 在 前 面 列举 ， 此 
节 不 再 复述 . 
R-501 Flyview , REA ESR, WERN: 

W. Janning, Sem. Cell. Dev. Biol. 8 (1997) 469 — 475. 

了 网址 : 
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http://flyview.uni-muenster.de/ 


R-502 Flybrain, ， 果 蜡 神 经 系统 图 谱 和 数据 库 ， 描 述 见 : 


M. Heisenberg, and K. Kaiser, Trends Neurosci. 8 (1995) 481. 
kd ht: 
http://flybrain.uni-freiburg.de/ 


R-503 NEXTDB ,线虫 基因 表达 模式 数据 库 (Nematode Expression Pat- 


tern Database) . 可 以 通过 浏览 器 访问 : 
http://watson.genes.nig.ac.jp:8080/db/ 


R-504 MAGEST 数据 库 ， 其 名 字 来 自 MAbova Gene Expression patterns 


and Sequence Tags 短语 的 缩写 。 日 文 名 字 叫 Maboya HII Ki (Halo- 
cynthia roretzi) 是 一 种 低 等 峭 索 动物 , 此 上 血 包 含 受精 卵 发 育 过程 中 的 
基因 表达 图 详 和 序列 标记 . 描述 见 : 

T. Kawashima 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 133 - 135. 
此 库 基于 Sybase 关系 数据 库 ， 可 通过 WWW Wi. Wak: 
http://star.scl.kyoto-u.ac.jp/magest/ 


R-505 BodyMap ， 人 类 和 家 鼠 基 因 表 达 数 据 库 ， 可 按 DNA 序列 查询 . 


它 最 初 基于 大 规模 cDNA 测序 和 基因 表达 的 定性 定量 分 析 ， 目 的 在 
于 通过 系统 地 分 析 cDNA 和 构建 数据 库 来 发 现 新 基因 。 详 见 : 

T. Hishiki, S. Kawamoto, S. Morishita, and K. Okubo, Nucleic Acids 
Res. 28 (2000) 136 - 138. 

Rh. 

http://bodymap.ims.u-tokyo.ac.jp/ 


R-506 Axeldb, JEFA 基因 表达 数据 库 。 它 本 身 是 用 ACeDB [R-851] 


实现 的 .请 参看 : 

N. Pollet 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 139 - 140. 

网 址 : 

http://www.dkfz-heidelberg.de/abtO135/axeldb.htm 

http://www .dkfz-heidelberg.de/tbi/axeldb images/ 
docs/help.html 【文件 和 显示 示例 ) 


R-507 XMMR ， 非 洲 爪 次 分 和子 标 记 资 源 (Xenopus Molecular Marker Re- 


source) 。 它 提供 有 关 非 洲 乐 蜡 发 育 过 程 各 个 方面 的 链接 以 及 相应 研 
究 单位 的 信息 。 网址 : 
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http://vize222.zo.utexas.edu/ 

R-508 TRIPLES ,酵母 基因 功能 数据 库 ， 设 在 耶鲁 大 学 医学 院 的 基因 组 
分 析 中 心 (Yale Genome Analysis Center ， 简 称 YGAC), TRIPLES 
Æ TRansposon-Isertion Phenotypes. Localization, and Expression in 
Saccharomyces f) T. HE II A E Ro: 
A. Kumar 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 81 834. 
Ij hb: 
http://ygac.med.yale.edu/triples/ 

R-509 MGEIR., fk nc (f) 2x Bb SETS KAI El vt UB. (Mouse Gene Expression 
Information Resource) , WJ ht: 
http://genex.hgu.mrc.ac.uk/ 

R-510 GXD ， 家 鼠 基 因 表 达 数 据 库 ， 详 见 : 
M. Ringwald, J. T. Eppig, J. A. Kadin. J. E. Richardson, 以 点 基因 表 
达 数 据 库 小 组 ， Nucleic Acids Res. 28 (2000) 115 119. 
网 址 : 
http://www.informatics.jax.org/ 

searches/gxdiíindex form.shtml 

R-511 EpoDB ， 许 椎 动物 红细胞 生成 (erythropoiesis) 基因 表达 分 析 数 据 
M. IBS. 
C, J. Stoeckert Jr., F. Salas, B. Brunk, and G. C. Overton. Nucleic 
Acids Res. 27 (1999) 200 — 203. 
网 址 : 
http://cbil.humgen.upenn.edu/epodb/ 

R-512 KidneyDB , HWA RHEE., 44m I SIC BO SEBE. eu hl: 
http://www.ana.ed.ac.uk/anatomy/kidbase/kidhome.html 

R-513 ToothExp ， 牙 齿 基 因 表 达 数 据 库 . 网 址 ; 
http://honeybee.helsinki.fi/toothexp/toothexp.htm] 
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我 们 把 有 关 基 因 突 变 的 数据 烘 同 病理 和 免疫 放 存 一 起 列举 . 
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R-514 ATAKEAK GA az, gg AS. 

Human Mutation 8 (1996) 197 - 202: 11 (1998) 1 - 3. 

R-515 HGMD ， 人 类 基因 究 灾 数据 库 ， 可 型 于 预测 基 央 疾病 . Wit i: 
D. N. Cooper, E. V. Ball, and M. Krawczak, Nucleic Acids Hes. 26 
(1998) 285 - 287. 
ie a: 
http://uwcm.ueb.cf.ac.uk/uwcm/mg/hgmdO . html 

R 516 Marfan, AX FBN1 基因 突变 数据 库 及 分 析 软 件 ， 其 第 3 MU 
见 : 

G. Collod-Baroud 等 19 位 作者 ， Nucleic Acids Res. 26 (1998) 229 - 
233. 

网 址 : 

http://uwcm.web.cf.ac.uk/uwcm/mg/hgmdO.htmi 

R-517 Collagen ， 人 类 胶原 数据 库 ， 它 搜集 所 有 已 知 的 人 类 第 1 类 胶原 
al 链 和 a2 GENI SEE, DL RES II 类 胶原 od 链 突变 (COL1A1， 
COL1A2 和 COL3A1) 的 数据 。 请 参看 ， 

R. Dalgleish, Nucleic Acids Res. 26 (1998) 253 — 255. 
Bg hb. 
http://www.le.ac.uk/genetics/collagen/ 

R-518 人 类 PAX2 等 位 基因 变异 数据 库 . 请 参看 [R-519] 的 引文 . 网 址 : 
http://www .hgu.mrc.ac.uk/Softdata/PAX2/ 

R-519 人 类 PAX6 等 位 基因 突变 数据 库 . 请 参看 ， 

A. Brown, M. McKie, V. van Heyningen, and J. Prosser, Nucleic Acids 
Res. 26 (1998) 259 -- 264. 

Fd hb: 

http://www.hgu.mrc.ac.uk/Softdata/PAX6/ 

R-520 Androgen , HE CX: peo AE AEG HE, US S SS TEVERSTEE EE BL. 
前 列 腺 癌 等 8 闫 图 诺 ， 密 度 、 频 度 以 及 基因 型 和 表现 型 关联 数据 . 二 
述 见 ， 

B. Gottlieb, M. Trifiro, R. Lumbroso, and L. Pinsky. Nucleic. Acids 
Res. 25 (1997) 158 -- 162. 
FI nb: 
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http://www.mncgill.ca/androgendb/ 
ftp://ftp.ebi.ac.ux (/pub/databases/androgen/) 

R-521 ALFRED 为 ALlcle FREquency Database 网 缩写 ， 这 是 出 耶鲁 大 
学 K. K. Kidd 实 蛤 富 维 护 的 一 个 针对 人 口 多 样 性 和 DNA. 多 态 性 的 
等 位 基因 数据 库 ， 描 述 见 : 

K. H. Cheung 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 361 . 363. 
W hE: 
http://alfred.med.yale.edu/alfred/ 

R-522 CDAOLBASE, CDA4OL WAREKE., CD40L 突变 导致 与 义 
染色 体 相 联系 的 血 免 疫 球 重 白 过 多 综合 征 (X-linked hyper IgM syn- 
drome 、 简 称 X-HIM) . 此 库 的 一 部 分 是 文献 且 录 。. 

网 址 : 

http://wwwu.expasy.ch/cd40lbase/ 
ftp://ftp.expasy.ch (/databases/cd40lbase) 
北京 大 学 生物 信息 中 心 [R- 166] £6 BE $. 

, R-523 KMDB ,由 日 本 大 应 义 整 {Keio) 大 学 医学 院 建 立 的 一 组 与 人 类 疾 
病 有 关 的 基因 突变 数据 库 . 最 早 只 有 了 眼病 数据 库 KMeyeDB ， 现 在 
已 发 展 出 与 心脏 、 耳 、 脑 和 准 症 有 关 的 KMheartDB 、 KMearDB , 
KMbrainDB 38 KMcancerDB . 它们 都 是 借助 一 个 名 叫 Mutation View 
的 数据 库 软 件 建 立 的 ， 关 于 这 些 数据 库 的 总 描述 ， 请 参看 : 

S. Minoshima 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 364 - 368. 
从 KMDB 的 网 页 、 可 以 进入 任何 一 个 库 ， 但 在 访问 时 须 先 注册 .网 
址 : 

http://mutview.dmb.med.keio.ac.jp/ 

R-524 KMeyeDB ， 人 类 疾病 和 眼病 基因 突变 数据 库 . 设 在 日 本 类 应 义 
热 大 学 医学 院 、 访 问 时 须 先 注册 。 网 址 ; 
http://mutview.dmb.med.keio.ac.jp/mutview3/kmeyedb/ 

R-525 KMheartDB ， 人 类 心脏 病 基 因 突 变数 据 库 . EYE FARA SC 
学 医学 院 ， 请 参看 KMDB[R-523] 的 网 址 . 

R-526 KMearDB ， 人 类 耳 病 基 因 突 变数 据 库 . 设 在 日 本 庆 应 义 扣 大 学 医 
学 院 、 清 参看 KMDB[R-523] 的 网 址 . 
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R-527 KMbrainDB 、 人 类 脑病 基因 突变 数据 库 . EHAK AAY 
医学 院 。 请 参看 KMDB[R -523] 的 网 址 ， 

R-528 KMcancerDB ， 人 类 癌症 基因 突变 数据 库 . BEHA EIKAI AK 
学 医学 院 。 请 参看 KMDB[R-523] Ij kd hr. 

R-529 OMIA 7é-— Xd 435 05 9E A fe. Fd. EEUU HUI D 
据 库 ， 其 组 织 与 OMIMIR-335] EAZA. — 请 访问 澳大利亚 的 
OMIA 在 线 服务 器 : 
http://www.angis.su.oz.au/BIRX/omia/omia.form.html 

R-530 Atlas, ?XHs] dt xz B tr 4d IUBE AE TO UL HAS 0 38 f 55 HERD fe on 8 X 
据 库 (Atlas of Genetics and Cytogenetics in Oncology and Heamatol- 
ogy) ， 应 在 完善 之 中 。 其 描述 可 见 : 

J. L. Huret 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 349 351. 
pI hE: 
http://www.infobiogen.fr/services/chromcancer/ 

R-531 P7MD , Kn [3 £F. VII 突变 位 点 数据 库 ， 详 见 HAMSTeRS [R-532] 
的 引文 和 网 给 . 

R-532 HAMSTeRS , 凝血 因子 VITE 结构 和 突变 位 点 数据 库 . HAMSTeRS 
是 Haemophilia A Mutation Search Test and Resource Site KH *3. 这 
是 所 有 从 A 型 血 友 病 患 考 身 上 发 现 的 点 突变 、 插 入 和 删除 的 总 汇 。 
网 页 上 还 有 凝血 因子 VIII 蛋白 质 结 构 和 基因 分 析 的 信息 ,以 及 A 型 
血 友 病 分 子 遗 传 学 的 综述 。 HAMSTeRS 第 4 版 描述 见 : 

G. Kemball-Cook, E. G. D. Tuddenham, and A. Ll. Wacey, Nucleic 
Acids Res. 26 (1998) 216 - 219. 

Jes hi: 

http://europium.mrc.rpms.ac.uk/ 

ftp://ftp.ebi.ac.uk (/pub/databases/hamsters) 

R-533 HaemB , B Zn A fA BE HILS F IX 点 突变 和 短 播 入 或 删除 序列 的 
数据 库 ， 其 第 8 版 描述 见 : 

F. Giannelli 等 11 位 作者 ， Nucleic Acids Res. 26 (1998) 265 — 268. 
PIHE: 

http://www.umds.ac.uk/molgen/haemBdatabase.htm 
ftp://ftp.ebi.ac.uk (/pub/databases/haemb) 
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R-534 TTMD , $£3E3:/ y n3g 2x ae Xr fs Vg. (Transgenic/Targeted Muta- 
tion Database) 。 Mibi: 
http://tbase.jax.org/ 

下 面 六 要 列举 与 人 类 有 关 的 病理 和 免疫 数据 库 . 

R-535 FIMM ， 功 能 分 子 免疫 学 数据 库 . 它 搜集 以 细胞 免疫 为 重点 的 、 与 
功能 分 子 免疫 学 有 关 的 数据 , 包括 蛋白 质 抗原 、 主 要 组 织 相 容 性 复合 
体 MHC 4f. 5 MHC 有 关 的 多 肢 、 以 及 相关 疾病 等 。 请 参看 : 

C. Schonbach, J. L. Y. Koh, X. Sheng, L. Wong, and V. Brusic, Nucleic 
Acids Res. 28 (2000) 222 - 224. 

#4 hi: 

http://sdmc.krdl.org.sg:8080/fimm/ 

R-536 MTB, REIR HF (Mouse Tumor Biology) XORI. ARK 
作为 遗传 性 癌症 的 模型 生物 ， 描 述 其 肿瘤 和 肿瘤 细胞 系 、 肿瘤 病理 报 
告 和 图 象 、 与 肿瘤 发 委 有 关 的 遗传 因子 、 发 病 率 、 以 及 遂 向 其 他 网 
资源 的 链接 . 详 见 : 

C. J. Bult, D. M. Krupke, J. P. Sundberg, and J. T. Eppig, Nucleic 
Acids Res. 28 (2000) 112 - 114. 

Fh: 

http://tumor.informatics.jax.org/ 

R-537 BCGD , AX ARE SEDI PCIE TE, Wh: 
http://condor.bcm.tmc.edu/ermb/bcgd/bcgd html 

R-538 PDD ， 人 类 体液 中 蛋白 质 与 疾病 关系 的 数据 库 (Protein Disease 
Database), if £8. 

C. R. Merril, Appl. Theor, Electrophoresis 5 (1995) 49 54. 
网 址 : 

http://wuu-lmmb.ncifcrf.gov/PDD/ 
http://www-pdd.ncifcrf.gov/ 

R-539 PAH HR £t A DEAE PIER LER E (phenylketonuria) (f 2 Pj AR ES 4606 
特异 位 点 (PhenylAlanine Hydroxylase locus) 数据 库 。 这 是 一 个 经 过 
大 工 审读 的 关系 数据 库 。 摘 述 见 : 

P. Nowacki, S. Byck, L. Prevost, and C. R. Scriver, Nucleic Acids Res. 
26 (1998) 220 - 225. 网 址 : 
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http://wvwuw.mcgill.ca/pahdb/ 

R-540 CFTR., Eri ET H Fo (Cyctic Fibrosis Transmembrane 
conditional Regulator) 3E dE EHE PE, WHE: 
http://www.genet.sickkids.on.ca/cftr/ 

R-541 NRR., © fk (Nuclear Receptor Resource) 计划 ， 包 括 糖 类 
皮 酯 激素 (glucocorticoid , i, GRR), P AE IR Rz IR CX (mineralo- 
corticoid) 、 甲 状 腺 激素 、 维 生 素 也 受 体 、 类 固 醇 受 体 等 信息 的 数据 
HE, WA. 

E. Martinez 等 9 位 作者 ， Nucleic Acids Res. 25 (1997) 163 - 165. 
网址 : 

http://nrr.georgetown.edu/nrr/nrr.html 
http://nrr.georgetown.edu/GRR/GRR.htiml 

R-542 IMGT, 1989 年 建立 的 但 际 免疫 遗传 学 数据 库 (International Im- 
MunoGeneTics database) 。 它 包括 各 种 准 椎 动物 免疫 球 蛋 和 白 (Ig). 
T 细胞 受 体 (TcR) 和 主要 组 织 相 容 性 复合 体 {MHC) F. CHAS 
库 组 成 : IMGT/LIGN-DB Jj A RAHE V) lg 和 TcR 数据 库 ， 包 括 
带 详细 注释 序列 的 翻译 ; 以 及 IMGT/HLA-DB ， 即 人 类 白细胞 抗体 
TREE. h IMGT 服务 器 可 以 访问 各 种 免疫 遗传 学 数据 ， 详 见 ， 

M. Ruiz 等 12 位 作者 ， Nucleic Acids Res. 28 (2000) 219 - 221. 
网 址 ， 

http://imgt.cines.fr:8104/ 

ftp://imgt.cines.fr (/pub/IMGT) 
http://www.ebi.ac.uk/imgt/ 

北京 大 学 生物 信息 中 心 [R- 166] & SES. 

R-543 HIG , Anthony Nolan 骨髓 和 和 白血病 基金 会 的 人 类 白细胞 抗体 HLA 
信息 给 (HLA Informatics Group) 。 它 的 HLA 序列 数据 库 包 含 第 I 类 
和 第 I 类 HLA 的 核 座 与 蛋白 质 序列 的 联 配 结果 . 这 里 还 条 HLA 等 
位 基因 命名 规则 等 信息 .网 址 : 
http://www.anthonynolan.com/HIG/ 

R-544 Kabat, 30 年 前 由 EE. A. Kabat 建立 的 具有 免疫 学 意义 的 息 白 质 
序列 数据 库 . 1991 年 书面 出 版 的 第 5 版 为 江 卷 巨著 ; 

E. A. Kabat, T. T. Wu, H. Perry, K. Gottesman, and C. Foeller, 
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Sequences of Proteins of Immunological Interest, NIH Publications, 
No. 91-3242, 5th ed. 1991. 
1999 Œ 9 月 底 ， Kabat 库容 量 为 1991 年 的 五 倍 ， 所 和 包含 的 抗体 轻 
链 和 语 链 分 别 有 1599 375 和 2 517 756 THER. 详情 请 参看 : 
G. Johnson, and T. T. Wu, Nucleic Acids Res. 28 (2000) 214 - 218. 
了 网址 ， 
http://immuno.bme.nwu.edu/ 
ftp://ttwu.bme.nwu.edu (/pub/database/) 
许多 国际 生物 信息 中 心 有 镜 象 . 北京 大 学 生物 信息 中 心 |R-166] 也 人 
BE. 

R-545 PEDB ， 前 列 腺 表达 数据 库 ， 由 Leroy Hood 2i FERAE ( 西 
雅 图 } 分 子 肿 瘙 和 与 发 育 实验 室 维护 . 最 近 撒 述 见 
P. S. Nelson 等 7 位 作者 ， Nucleic Acids Res. 28 (2000) 212 - 213. 
网 址 : 
http://www.mbt.washington.edu/PEDB/ 
http://chroma.mbt.washington.edu/mod www/ 

R-546 HIV ， 艾 滋 病 分 子 免疫 学 数据 库 。 风 址 : 
http://hiv-web.lanl.gov/immunology/immuno-main.html 

R-547 斯 坦 福 大 学 的 HIV RT 数据 库 , 包含 凡 乎 全 部 已 发 表 的 HIV RT( 反 
SCRI) 和 和 蛋白酶 序列 ， 是 研究 抗 HIV 药物 苇 分 子 演化 和 与 药物 有 
关 变 化 的 原始 资料 . 这 个 库 的 重要 性 在 于 , BORD BOSE HE 
合 药 物 的 疗效 与 病人 过 去 的 治疗 史 有 关 . 许多 长 滋 病 药物 都 可 能 诱 
发 相互 之 搁 的 抗 药性 。 描述 见 ， 
R. W. Shafer 等 5 位 作者 ， Nucleic Acids Res. 28 (2000) 346 - 348. 
网 址 : 
http://hivdb.stanford.edu/hiv/ 
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基因 组 学 和 和 蛋白质 组 学 的 迅 独 进展 ， 展 现 了 从 入 体 上 研究 细胞 内 代 
谢 途 径 和 凋 控 网 络 的 前景 有关 数 据 库 和 网 页 处 在 不 断 虽 新 和 重 纳 中 . 
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R-548 WIT 是 What Is There 的 缩写 ， 这 是 美国 阿南 (Argonne) 国家 实 
验 室 的 一 个 集成 的 重 构 代 谢 途 径 和 模型 的 系统 . fei EM DU Ex 
百 式 地 进行 大 量 基 因 组 序列 的 分 析 和 建立 模型 ， 对 代谢 途径 、 NEL S 
型 、 井 作 子 等 提出 查询 。 1995 年 WIT 第 1 版 的 网 址 : 
http://www.cme.msu.edu/WIT/ 

WIT2 是 其 新 版 . 现在 第 一 次 访问 这 个 网 页 时 须 先 注 册 ， 以 后 才能 自 
由 使 用 .其 描述 请 参看 : 

R. Overbcek 等 9 位 作者 ， Nucleic Acids Res. 28 (2000) 123 — 125. 
Wi bt: 

http://wit.mcs.anl.gov/WIT2/ 

R-549 EMP 是 酶 与 代谢 途 征 (Enzymes and Metabolic Pathways) fj 3*5. 
kd hb: 
http://biobase.com/emphome.html/ 
http://www.biobase.com/EMP/ 

R-550 MPW ， 代 谢 途 径 (Metabolic PathWays) MEHE, 是 EMP [R 549] 
库 的 一 个 子 集 。 请 参看 : 

E. Selkov, Jr., Y. Grechkin, N. Mikhailova, and E. Selkov, Nucleic 
Acids Res. 26(1998) 43 — 45. 

了 网址 : 

http://www.cme.msu.edu/MPW/ 
http://beauty.isdn.msc.anl.gov/MPW/ 

在 上 面 第 二 个 网 点 ， 可 用 类 似 电 瞩 图 的 方式 绘制 代谢 途径 、 

R-551 PUMA. ， 原 是 单 细胞 生物 代谢 途径 亲缘 联 配 数据 库 (Phylogeny of 
the Unicellular organisnis Metabolism pathways Alignment) 。 它 的 功 
能 已 经 完全 被 WIT [R-548| Erg HEBR i. 以 下 网 页 也 不 复 存 作 : 
http://www.msc.anl.gov/home/compbio/PUMA/ 

R-552 EcoCyc 数据 库 和 MetaCyc 数据 库 . WE pU oh X Re iT OR Le 
部 生化 阅 络 ， 包 括 基因 、 代 谢 途 径 、 信 和 号 转 导 RREA Y. 
后 者 是 以 微生物 为 主 的 多 个 物种 的 酶 和 代谢 途径 数据 库 ， DIN EX 
肠 杆 菌 数据 上 有 重复 . 清 参 看 : 

P. D. Karp 等 6 位 作者 ， Nucleic Acids Res. 28 (2000) 56 - 59. 
两 个 库 的 网 规 :都 在 : 
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http://ecocyc.panbio.com/ecocyc/ 
http://ecocyc.PangeaSystems.com/ecocyc/ 
http://www.ai.sri.com/ecocyc/ecocyc.html 

R-553 PathDB , ， 代 谢 途 径 数据 库 .、 由 NCGR [R-135] 发 展 和 维护 的 这 个 
生物 化 学 和 代谢 途 生 数据库， 搜集 了 丰富 的 有 关 酶 、 生化 反应 、 代 谢 
途 征 、 输 运 步骤 和 化 合 物 的 信息 . 所 有 数据 按 物 种 分 类 组 织 。 可 以 通 
过 网 页 寻访 ， 也 可 以 下 载 一 个 Java TARD. Hih: 
http://www.ncgr.org/Software/pathdb/ 

R-554 KEGG , 5r SEXE DS 55 SED ZI Ej KE E 15 (Kyoto Encyclopedia of Genes 
and Genomes) 、 它 包含 核 龄 分 子 、 重 白质 序列 、 基 因 表 达 、 基 六 8 纠 
图 谱 、 代 谢 途 径 图 等 . 此 库 的 建立 参考 了 Boehringer Mannheim 公司 
的 代谢 途径 挂图 [R-555] 和 日 本 生物 化 学 学 会 的 收藏 、 评 沪 : 
M. Kanehisa, and S. Goto, Nucleic Acids Res. 28 (2000) 27 - 30. 
网 址 : 
http://www.genome.ad.jp/kegg/ 
ftp://kegg.genome.ad.jp/ 
DLBg REA SUED, EH A R SS Pon n RR 
http://wWww.tokyo-center.genome.ad.jp/kegg/ 
http://www.tokyo-center.genome.ad.jp/kegg2.html 
http://www.genome.ad.jp/kegg/kegg.html 

R-555 由 Boehringer Mannheim Zr B] E Jt B (CB 45 P8, Hefe iT E Ac (b 
实验 室 的 墙壁 土 . 与 大 型 地 图 类 似 , Eo F REOR b VIRES 
块 . 各 种 酶 和 反应 物 的 盘根错节 关系 ,现在 可 以 分 块 显示 在 磋 闻 上 ， 
并 且 上 下 左右 跟 跨 . 例如 从 ENZYME 数据 库 查 得 , 腺 三 磷 酶 ATPase 
在 挂图 S3 区 ， 训 由 此 开始 追踪 。 有关 此 圭 图 及 其 索引 ， 请 参看 ， 
http://www.expasy.ch/cgi-bin/search-biochem-index/ 

R-556 SMILES 是 一 个 辅 勘 性 数据 库 ， 它 搜集 与 代谢 途径 月 关 的 化 合 物 
A. 网 址 : 
http://www.daylight .com/dayhtml/smiles/ 

R-557 LIGAND , 酶 反应 化 学 数据 库 , 由 日 本 京都 大 学 化 学 研究 所 维护 . 
它 从 研 反 应 角度 提供 化 学 与 生物 学 的 联系 .请 参看 : 
S. Goto, T. Nishioka. and M. Kanehisa, Nucleic Acids Res. 28 (2000) 
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380 .- 382. 
bp a: 
http://www.genome.ad.jp/htbin/shov.man?ligand 
ftp://ftp.genome.ad.jp (/db/genomenet/ligand) 

R-558 CSNDB , 细胞 中 信号 网 络 的 数据 库 (Cell Signaling Networks Data- 
Base). 日 本 国立 健康 科学 研究 所 建立 的 这 个 数据 库 ， 是 人 类 细胞 中 
信和 号 途径 的 数据 和 知识 库 . 它 汇编 了 有 关 信 号 传输 的 生物 分 子 、 序 
列 、 结 构 、 功 能 和 生物 化 学 反应 ， 并 可 自动 绘图 表示 和 售 号 途径 . 库 的 
构建 基于 ACeDB [R-367] ， 并 有 通 向 TRANSFAC [R-219] 的 链接 . 
Bar. 
http://geo.nihs.go.jp/csndb/ 

R-559 Biocatalysis/Biodegradation ， 生 物 催 化 与 生物 降解 数据 库 . X 
于 这 个 由 Minnesota 大 学 建立 的 数据 库 ， 可 参看 : 
L. B. M. Ellis, C. D. Hershberger, and L. P. Wackett, Nucleic Acids 
Res. 28 (2000) 377 - 379. 
PI BE: 
http://dragon.labmed.umn.edu/^lynda/index.html 
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与 农作物 、 树 木 和 家 请 、 家 弟 有 关 的 基因 图 谱 数 据 库 很 多 ， 在 列举 
之 前 ， 先 介绍 几 个 主要 的 机 构 及 其 网 址 : 

R-560 美国 农业 部 (USDA) 图 家 农业 图 书馆 (NAL) 基因 组 信息 系统 (Agri- 
cultural Genome Information System , fij$k AGIS) ， 它 本 身 的 服务 
器 基于 ACeDB [R-851] ,其 旧 网 址 : 
bttp://probe.nalusda.gov:8000/ 
己 不 适用 . 植物 基因 组 和 其 他 物种 基因 组 数据 库 已 经 转 到 下 面 ARS 
的 网 址 . 

R-561 ARS ,农业 研究 服务 处 新 设立 在 康 奈 尔 大 学 的 USDA-ARS 生物 信 
息 学 和 比较 基因 组 学 中 心 ， ARS 是 Agricultural Research Service 的 
缩写 ， 网 址 : 


http://ars-genome.cornell.edu/ 
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这 里 也 是 日 本 小 麦 网 KOMUGI [R-575] 的 美国 镜 象 点 . 

R-562 AgDB 、 农 业 数 据 库 和 信息 资源 总 清单 。 设 在 关 国 农业 网 络 信 起 
rà (Agricultural Network Information Center ， 了 向 称 AgNIC) 的 
AgDB ， 是 与 农业 有 关 的 数据 库 和 信息 资源 的 总 尘 单 ， 肉 窑 权 当 下 
18. 我们 不 一 一 列举 ， 清 参见 网 址 : 
http://www.agnic.org/agdb/ 

R-563 igfr3& IW] 8&8) Rosin 研究 所 的 生物 信息 组 ， 发 展 了 务 为 “ 方 
JR" (Ark) 的 系统 来 搜集 和 比较 各 种 动物 基因 图 谱 。 详情 请 参看 他 
1 e hE: 
http://wwwWw.ri.rrsrc.ac.uk/bioinformatics/ark-overview.html 
ix HL R38, 39. :5. Wü. KIG, WE. £8 €. WA (tilapia) PaE XE fA] 
图 谱 数 据 库 的 原始 网 址 ， 还 有 人 牛 类 基因 图 谱 库 的 镜 象 。 进 入 的 办 法 
是 在 下 面 和 的 URL 的 =: 后面 填 写 物 种 名 字 、 例 如 : 
http://www.ri.rrsrc.ac.uk/cgi-bin/arkdb/ 

broswers/broswer.sh?species-pig 

R-564 INRA ， 法 国耻 家 农业 研究 所 (Institut National de la Recherche 
Agronomique) . it 8 fi^: [R-590] 、 水 和 牛 (R-593] ,. -É [R -588] , 
f& [R-596] . Sf [R 597] ,. = IR-589] 4 zh t xe DSL ES iE KE IA, 
以 及 美国 谷物 基因 库 GrainGenes [R-572] 的 镜 象 . 网址: 
http://locus.jouy.inra.fr/ 

R-565 美国 得 克 萨 斯 A& M XE ^p dé p P i6 38 E E 8 Je bs ud hc FR f 
羊 、 马 数据 库 的 镜 象 点 : 
http://bos.cvm.tamu.edu/ 

R-566 3 [s X PA 4E 98 vr. X 2E A R RI S BE PS P S DE HE DG cs 


http://Wwww.genome.iastate.edu 
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R-567 UK CropNet ， 英 人 图 农 作物 植物 生物 信息 网 络 ， 这 电 有 许多 和 谷物 
类 植物 基因 组 数据 库 和 其 他 生物 信息 ， 如 大 麦 数 据 库 barleydb 、 $4 
草 (forage grasses) 数据 库 foggdb 、 39 ETE EEdg ME nilietgenes 、 X 
昔 数 据 库 BrassicaDB 等 .请 参看 : 
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J. Dicks 等 16 位 作者 ， Naucieic Acids Res. 28 (2000) 104 - 107. 
网 址 : 
http://synteny.nott.ac.uk/ 

R-568 INE , 水 稻 基 因 组 数据 库 。 INE 是 集成 水 稻 基 因 探 索 者 (INtegrated 
rice genome Explorer) H HEA FAHAS, XERA “Kir FHH 
音 。 以 及 本 为 主 的 轩 际 水 稻 枯 因 组 计划 (RGP) 集中 对 O. sativa ssp. 
japonica $I XY fp, LPA AE BERE (nipponbare) 或 GA3 进行 测序 . 
此 计划 的 开始 见 ， 

N. Kurata 等 ， Nature Genetics 8 (1994) 365 - 372. 

新 建 的 INE 数据 库 基 于 OOP [R-51] 概念 .包含 各 种 基因 图 谱 的 彩 

EEI. 描述 见 : 

K. Sakata 等 7 位 作者 ， Nucleic Acids Res. 28 (2000) 97 - 101. 

leg Br: 

http://www.staff.or.jp/giot/INE.html 

ftp://ftp.staff.or.jp 

TALT RISE OK FE BEER ALT QOL RS ERE 60. ST ELUI IS] Xe [8] fri fà v Ai 

文 国家 实验 室 的 基因 组 ftp 服务 器 : 

ftp://genomeli.bio.bnl.gov/ 

在 它 的 /pub/maize/ 子 如 录 里 ， 保 存 着 历次 国际 水 稻 基 内 弓 卫 作 会 

RÉRE. 2000 年 4 日 初 , 重山 都 公司 宣布 它 已 经 完成 水 稻 12 个 染 

色 体 测序 任务 的 80 儿 、 并 将 与 国际 科学 界 共享 测序 成 果 . EE: 

http://www .monsanto.com/monsanto/ 
mediacenter/2000/00apr4 rice.html 

R-569 我 国 水 稻 基 因 组 计划 针对 水 稻 的 籼稻 亚 种 . KF OL ER 0 DIS R [9 
B. XLE: 

G. F. Hong 等 15 位 作者 ， “A 120 kilobase resolution contig map of 
the rice genome", DNA Seq. 7 (1997) 319 - 335. 

此 图 谱 数 据 ， 可 访问 国家 基因 研究 中 心 IR-175] 的 网 页 : 
bttp://www.ncgr.ac.cn/ 

ftp://ftp.ncgr.ac.cn 

测序 工作 过 去 集中 于 第 4 对 染色 体 ， 最 近 中 国 科 学 院 遗 传 研 究 所 人 
Z5 EE BRE ZH rp [Fo 174]. 已 访 动 以 籼稻 为 亲本 的 超级 杂交 水 稻 的 大 规 
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模 测 序 . 

R-570 ÆA TIGR 研究 所 [R-156] 维护 着 几 个 与 水 稻 基 因 组 有 关 的 数据 
FE. BROKI Pii; EHE (Rice Genome Annotation Database , 
简称 RGAD) 、 水 稻 重 复 序 列 库 (fr cp OK RECRE ESL AL p E EI P ZA) n 
50%), EL CK AUGE BA 9| (Oryza sativa Gene Index ， 简 称 OsGI) , 
这 里 还 有 一 个 指向 水 称 甘 因 组 计划 其 他 参与 单位 的 链接 表 。 请 参看 
Fal hi: : 
http://www.tigr.org/tdb/rice/ 

R-571 RiceGenes ít X [NR AE ACA E H KR EAH, E GLK Ki 
Bier. afe., H. MR (germplasma), QTL 和 比较 隐 谱 
等 方面 的 和 信息 .此 库 采 用 ACeDB [R-851] 软件 ， 过 去 要 授 过 闫 | 条 困 
家 农业 图 书馆 的 网 址 访问 ， 现存 直接 出 [R-561] ut A. 
http://ars-genome.cornell.edu/rice/ 

R-572 GrainGenes 是 中 关 国 农业 部 和 国家 农业 图 书馆 的 植物 基因 组 计划 
ZDE, E mH ERE REE. 它 搜集 遗传 和 细胞 遗传 贫 洲 、 
墓 因 探 和 针 、 核 骏 序 列 、 基 因 、 等 位 基因 和 基因 产物 、 相 关 的 表现 型 、 
QTL., AHMA, EB, ERARE, R e BREA 
Rih ECÉ. ERRE. GrainGenes WJA b BORE EIR RIKA Z, t 
去 要 通过 美国 农业 部 的 AGIS [R--560| 服务 器 访问 ， 现 页 可 HH [R561] 
直接 进入 : 
http://ars-genome.cornell.edu/ 
GrainGenes 数据 库 和 服务 器 在 法 国 INRA [R-564] 有 一 个 镜 象 点 、 称 
为 WWW GRAIN. kit: 
http://grain.jouy.inra.fr/ 
ftp://grain.jouy.inra.fr (/pub/database) 

R-573 XT tt 7? J5 Hi aS ok dei mH it 5 SEO. RI ELI; RI Ie fl: 
http://www.riceweb.org/ 
http://www.riceworld.org/ 

R-574 WHEAT ， 小 麦 基 办 图 谱 数 据 库 . args iet ied hb: 
http://wheat.pw.usda.gov/ 


23 QTL 邯 数量 性 状 基因 府 (Quantitative Trait Loci) , HIRA -W ds eR Y E 
由 多 个 “ 微 效 ” 基 因 决 定 。 清 参看 [R-37) 35. 
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http://wheat.pw.usda.gov/ggpages/newquery-request.html 

R-575 KOMUGI, HA XM, di 16 所 大 学 和 研究 所 联合 维护 KO- 
MUGI RH XE, GARE X EIU (Triticum) UR AGE I IR E 
(Avena) £u $ RIR (Aegilops) 农作物 的 基因 图 满 和 他 信和 总 的 数据 
E, 网 址 : 
http://www.shigen.nig.ac.jp/wheat/wheat.html 
此 网 址 有 时 不 能 自由 进入 ，、 可 试 其 美国 镜 象 点 [R-561|) . 

R-576 MaizeDB ， 玉 米 基 因 组 数据 库 . 此 网 页 上 还 有 不 少 其 他 信息 ， 包 
括 每 年 一 : 度 的 玉米 遗传 学 会 议 消 息 ， 网 址 : 
http://www.agron.misouri.edu/top.html 

R-577 ZmDB ， 玉 米 基 内 组 数据 库 。 请 参看 : 

X. W. Gai, S. Lal, L. Q. Xing, V. Brendel, and V. Walbot, Nucleic 
Acids Res. 28 (2000) 94 -- 96. 

网 址 : 

http://zmdb.iasstate.edu/ 

R-578 ILDIS ， 国 际 豆 科 杆 物 数据 库 和 信息 服务 (lInternational Legume 
Database and Information Service) ， 可 通过 其 LehumeWeb 检索 在 天 
i$j (Leguminosae) 植物 的 信息 。 网址 : 
http://wuw.ildis.org/LegumeWeb/ 

R-579 53€ (beans) X 3T il: 
http://scaffold.biologie.uni-kl.de/Beanref/ 

R-580 Soybase, X 3 (Clycine maz) Eig PE, xx de 3E aU M SE dni d M 4 
组 计划 资助 的 衣 阿 华 大 学 辟 类 数据 库 的 一 部 分 . 它 结构 上 与 ACeDB 
(R-851] 类 似 ， 具 有 方 使 的 链接 和 图 形 界面 可 通过 ARS [R-561] 的 
网 址 访问 . 

R-581 MGI, NCGR [R- 135] 和 Samuel Roberts Noble 基金 会 联合 开展 
fj & $8 dS BT T) Medicago truncatula 的 某 因 组 研究 ， 存 2000 年 4 
月 已 经 提交 15000 多 条 EST, Wht: 
http://wwu.ncgr.org/research/mgi/ 

R-582 cottonDB , X: NA FEREARE O (Southern Plains Agricul- 
tural Research Center , 简称 SPARC) 所 维护 的 棉花 数据 库 ， 人 包括 棉 
花 遗 传 学 知识 库 和 基因 级 学 数据 库 ， 后首 含 右 棉花 的 BAC 文库。 网 
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址 : 
http://algodon.tamu.edu/ 

R-583 TreeGenes ， 树 木 遗传 图 谱 数 据 库 ， 采 用 ACeDB [R-851] 数据 库 
HR. Kat: 
http://probe.nalusda.gov:8000/plant/abouttreegenes.html 
ftp://probe.nalusda.gov (/pub/treegenes/) 


4.17.2 RE., KEHE 


FTFHEZA, ZE. FOE Bb 6X ryan e p3 Pe e de Hc 
R-584 ChickGBASE , WEARER, fe de RES E TALES UR M 
tiii. Hi. (E DIE. mA AR, DLE 5 XS GEL PO E SE SJ 
有 关 的 单位 名 单 等 。 请 参看 : 
D. W. Burt 等 5 位 作者 ， Trends in Genet. 11 (1995) 190 - 194. 
网 址 : 
http://uww.ri.bbsrc.ac.uk/chickmap/ 
chickgbase/manager.html 
R-585 Swinemap ， 猪 基因 图 谱 计 划 ， 包 售 染 色 体 图 谱 和 标记 。 判 址 : 
http://sol.marc.usda.gov/genome/svwine/swine.html 
http://www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 
R-586 PiGBASE ,， 猪 基因 图 谱 信 息 库 ， 设 在 英国 Roslin WAI., EAK 
业 部 的 家 畜 基因 组 计划 和 美国 胡 阿 华 大 学 .网 址 分 别 是 : 
http://www. ri.bbsrc.ac.uk/pigmap/arkpig/ 
http://www.public.iastate.edu/^pigmap/pigmap.html 
http://probe.nalusda.gov:8000/animal/aboutpigbase.html 
R-587 SheepBase , 已 发 表 的 绵羊 基因 位 点 数据 库 ， 由 新 西 兰 牧 业 研究 所 
建立 ， 格 式 与 PigBASE ÍR-586], 、 ChickGBASE [R-584] fn BovG- 
BASE (R-592] — r, M£ M: 
J. A. Sise, A. L. Hillyard, and G. W. Montgomery, Mammalian Genome 
7 (1996) L. 
W hE: 
http://dirk.invermay,cri.nz/ 
http://www.ri.bbsrc.ac.uk/sheepmap/ (Roslin 研究 所 ) 
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http://tevra.gig.usda.gov:B400/sheepgbase/manager.html (X 
国 农 业 部 ) 

R-588 Goatmap , ili Y: (Capra hircus) EDS AE SCHEME. pd hi: 
http://1locus.jouy.inra.fr/ 

R-589 HorseMap , & (Equus caballus) 基因 图 说 数据 库 . Whe: 
http://www.ri.bbsrc.ac.uk/horsemap/arkhorse/ 
http://locus.jouy.inra.fr/ 

R-590 Bovmap ， 法 国 的 4 (Bos taurus) EA A it KEE. 网址: 
http://locus.jouy.inra.fr/cgi-bin/bovmap/intro.pl 

R-591 BovBase , 英国 的 牛 基因 图 谱 数 据 库 , 设 在 Roslin 研究 所 (R -563] . 
Pj. 
http://www.ri.bbsrc.ac.uk/bovmap/arkbov/ 

R-592 BovGBASE ， 美 国 农业 部 的 家 瘟 基 因 组 图 谱 计划 中 的 条 基因 数据 
Hi. 网 址 : 
http://probe.nalusda.gov:8000/animal/aboutbovgbase.html 

R-593 Buffmap , Kt- (Babalus bubalis) 基因 图 谱 数 据 库 。 pd hb: 
http://locus.jouy.inra.fr/ 

R-594 DogMap ， 狗 基因 图 谱 数 据 库 .网址 ， 
http://ubeclu.unibe.ch/itz/dogmap.html 
http://mendel.berkeley.edu/dog.html 

R-595 CatMap ， 猫 基因 图 谱 数 据 库 ， 设 在 Roslin WRA. WA: 
bttp://www.ri.bbsrc.ac.uk/catmap/ark/ 

R-596 RabbitMap, f& ( Oryctolagus cuniculus) $ A Pais ede VE, 网 址 : 
http://locus.jouy.inra.fr/ 

R-597 RainMap , XZ4[84 fà (Rainbow trout, Oncorhynchus mykiss) 基因 
图 谱 数 据 库 。 网 址 : 
bttp://1locus.jouy.inra.fr/ 

R-598 另 一 个 鲜 鱼 科 (Salmonids) 基因 数据 库 在 美国 华盛顿 州 忆 大 学 : 
http://www.wsu.edu:8000/^thorgiab/DATA.HTML 
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84.18 生物 医学 文献 数据 库 


本 节 主 要 列举 一 些 文 献 摘要 和 检索 、 名 词 术 语 定义 ， 以 及 引 内 情况 

查询 的 网 点 各 数据库. 

R-599 MEDLINE (MEDlars onLINE) Æ X Es] Psi 2x PX 7 P] H5 TR i Sc Bc dj s 
库 , 反映 美国 及 其 他 国家 3 800. 多 种 医学 和 生物 期 刊 的 作者 摘要 和 引 
用 情况 。 网址: 
bttp://www.nlm.nih.gov/databases/medline.html 
db CX 5k 1918 I pb [R-166] 有 MEDLINE 的 镜 象 . 

R-600 最 为 方便 的 查询 MEDLINE $397; 3, fd&o xt NCBI 的 PubMed AK 
务 : 
http://www.ncbi.nlm.nih.gov/PubMed/ 

R-601 SeqAnalRef ， 这 是 由 A. Bairoch 个 人 维护 的 有 关 序 列 分 析 的 文献 
目录 ， 可 以 用 多 种 方式 检索 . 请 参看 : 
A. Bairoch, CA BIOS ( Bioinformatics) 7 (1991) 268. 
网 址 : 
http://www.expasy.ch/seqanalref/ 
ftp://ftp.expasy.ch (/databases/seqanalref) 
此 库 的 问题 是 自 1996 年 2 月 的 67.0 RR DOKXR BE SEE, dB E 3 E 
生物 信息 中 心 有 镜 象 . 北京 大 学 生物 信息 中 心 [R-166] 也 有 镜 象 . 

R-602 SCI 是 设 在 美国 费城 的 科学 信息 研究 所 (Institute of Scientific In- 
formation ， 简 称 ISI) 所 提供 的 文献 引用 情况 的 检索 服务 。 只 有 付费 
订阅 单位 可 访问 其 Web of Science 网 页 : 
http://webofscience.com/ 

R-603 CancerWeb , 3E bi vt: 
http://www.graylab.ac.uk/cancerweb.html 
包含 关于 瘤 症 患者 、 临床 治 疗 、 教 育 、 文 献 等 多 方 而 内容 . 

R-604 HUMAT ， 人 体 解 前 学 数据 库 。 则 址 : 
http://ed.ac.uk/anatomy/database/humat/ 

R-605 KeyNet , $k £ PFF YII KEZA iR RT EP SE A A OX BE E PE. Bh 
述 见 : 
D. Catalano, F. Licciulli, D. D'Elia, and M. Attimonelli, Nucleic Acids 
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Res. 28 (2000) 372 - 373. 
网 址 : 
http://www.ba.cnr.it/keynet.html/ 
R-606 BioABACUS ， 生 物 学 与 生物 技术 以 及 计算 机 科学 缩写 字 表 ， 包 
括 原名 、 意 义 、 常 见 用 法 和 到 更 详细 解释 的 链接 .请 参看 : 
M. Rimer, and M. O'Connell, Bioinformatics 14 (1998) 888 - 889. 
网 址 : 
http://www.nmsu.edu/^molbio/bioABACUShome.htm 


84.19 其 他 数据 库 


R-607 Taxonomy ， 分 类 学 数据 库 . 这 是 NCBI [R-134] 和 GenBank [R- 
212] 所 维护 的 生物 分 类 数据 库 . 任何 物种 ， 只 要 GenBank 中 至 少 有 
一 条 核酸 或 蛋白 质 序列 ， 就 在 此 库 中 有 所 反映 。 1999 年 底 收录 的 物 
种 超过 55 000 . 它 的 上 层 界 面 是 一 个 分 类 学 浏览 器 。 网 址 : 
http://www3.ncbi.nlm.nih.gov/Taxonomy/tax.html 

R-608 ETI ,世界 生物 多 样 性 数据 库 设 在 薪 兰 的 分 类 鉴定 专家 中 心 (Expert 
Centre for Taxonomic Identifications ， 简 称 ETI) 。 网 址 : 
http://www.eti.uva.nl/ 

R-609 位 于 羡 同 麻 省 的 Woods Hole 海洋 生物 研究 室 (Marine Biology Lab- 
oratory , (B $& MBL) 有 一 个 海洋 动物 数据 库 (Marine Animal Mod- 
els) ， 它 搜集 了 210 Hi ^E EEHEZA MUR SOS S XR. Fu hb: 
http://database.mbl.edu/SPECIMENS/ 

如 不 能 直接 进入 ， 可 从 MBL 的 主页 选 “ 数 据 库 ”项 。 网 址 : 
http://www.mbl.edu/ 

R-610 TAED ， 适 应 性 演化 数据 库 (The Adaptive Evolution Database) , 
EHAR T3 zh Vy rod V9 TAED .网 址 : 
http://www.sbc.su.se/^liberles/TAED.html 


第 5 章 服务 、 软 件 和 算法 


生物 入 息 学 和 生物 计算 往往 相提并论 。 生物 信息 学 当然 涉及 大 量 算 
法 和 软件 ， 也 是 一 种 生物 计算 . 然而， 某 些 传统 的 生物 计算 ， 诸 如 生物 大 
分 子 的 结构 和 相互 作用 的 分 子 动力 学 模拟 、 代 谢 机 制 和 免疫 网 络 的 模拟 
等 等 ,本身 都 基于 专业 知 雁 ， 是 设备 齐全 的 专业 实验 室 的 研究 课 是 ， 一 般 
不 归 入 生物 信息 学 范围 ， 林 书 也 不 叙述 . 


生物 信息 学 的 首要 行 务 ， 是 从 数据 中 提取 知识 一 和 版 地 说 ， 分 子 生 
物 学 、 跟 传 学 、 分 子 演化 和 基因 工程 所 涉及 的 基于 数据 库 的 计算 , 通常 在 
三 个 层次 进行 . 

第 一 ， 享 用 网 上 服务 : 目前 许多 生物 信息 中 心 或 条 件 较 好 的 实验 室 
都 在 网 络 上 提供 现成 服务 .不 久 以 前 ， 主 要 靠 电子 邮件 提交 作业 和 获取 
结果 . 现在 , 越 来 越 多 的 服务 可 直接 在 互联 网 浏览 器 上 实现 . 这 在 目前 仍 
是 大 部 分 生物 学 者 的 主要 工作 方式 ,我 们 将 扼要 介绍 这 类 服务 . 它 的 局 限 
性 在 于 只 能 有 什么 用 什么 , 而 且 参 数 选择 不 当时 容易 被 “自动 ”返回 的 结 
RRF, 

第 二 ， 利 用 现成 软件 : 这 包括 购买 商业 性 软件 包 ， 或 者 从 互联 网 下 
载 免费 软件 ， 在 本 地 计算 机 系统 土 实现 - 商业 性 软件 通常 有 相应 安装 和 维 
护 服 务 ， 也 不 在 本 书 介绍 之 例 , 使 用 免费 软件 ， 对 用 户 有 更 多 要 求 ， 首 先 
要 知道 从 何 处 获取 ,其 次 要 自己 安装 、 再 次 往往 要 作 韵 裁 收 改 . 这 一 般 只 
能 和 舍 配 套 提 供 的 使 用 说 明 来 摸索， 不 宜 过 多 麻烦 原作 者 ， 何 况 上 有 些 作者 
早已 改换 课题 , 不 再 关心 往事 . 我 们 将 主要 介绍 一 些 获取 软件 的 线索 ， 耐 
不 恋 程序 的 安装 实现 问题 

第 三 ， 创 造 信息 环境 : 真正 开展 研究 工作 时 ， 会 发 现在 何 成 亦 供 应 
的 软件 都 不 可 能 恰到好处 地 满足 需要 . 这 时 就 要 自己 动手 或 者 同 数理 、 计 
算 工作 者 合作 编制 程序 .这 当然 离 不 开 对 算法 的 研究 和 发 展 ， 网 上 自由 
软件 带 有 的 源 程 序 ， 往往 很 值得 参考 、 这 里 最 重要 的 是 把 网 上 服务 、 下 载 
软件 和 自 编程 序 集成 为 一 体 , 创造 一 个 生物 信息 学 的 工作 环境 . 这 首先 是 
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国家 或 地 区 生物 信息 中 心 的 使 命 . 告 个 研究 集体 也 应 因地制宜 、 乏 步 创 造 
自己 的 信息 环境 . 

按照 这 三 个 层次 , 本 章 标 题 为 “服务 、 软件 和 算法 ". 然而 叙述 起 来 ， 
却 不 得 不 把 算法 的 简略 介绍 放 在 前 面 第 85.2 15. 否则 说 不 清楚 后 而 许多 
服务 和 软件 使 用 中 的 注意 事项 。 

对 于 许多 生物 学 者 ， 工 作 实 践 中 最 常见 的 需求 ， 是 把 自 志 的 核 通 或 
蛋 折 质 序列 送 去 同 国际 数据 库 中 收藏 的 海量 序列 进行 比较 ， 斗 找 同 源 X 
系 和 对 结构 、 功 能 的 启示 . 在 我 国 现实 条 件 下 ,借助 主要 国际 生物 信息 中 
DA BLAST 和 FASTA 服务 器 ,仍然 是 较为 可 行 的 办 法 .因此 ， 85.3 提 
Bil jr ZB X PARE HE SS. 它们 恰好 也 是 说 明 $5.2 中 不 少 概 念 的 良好 实 秽 . 有 了 
这 些 基 础 ， 就 可 以 分 类 成 批 地 介绍 其 他 软件 和 服务 . 这 是 85.4 节 到 55.13 
节 的 内 容 . WE, TÉ $5.14 和 $5.15 节 中 ， 罗 列 一 些 非 软 件 性 质 的 网 络 资 
源 、 主 要 是 电子 期 刊 、 新 闻 和 讨论 组 、 会 议 、 讲 义 等 . 


85.1 软件 和 服务 目录 


国际 互联 千 上 有 许多 生物 信息 、 生 物 计 算 软 件 和 服务 的 月 录 、， 还 有 
一 些 免费 软件 的 档案 库 . 下 面 列举 若干 剂 址 . 许多 昌 承 和 悄 案 库 的 缺点 ， 
是 更 新 不 够 及 时 . 读者 查 到 某 个 感 兴趣 的 条 目 ， 最 好 追踪 到 原作 者 的 网 
址 ， 碍 验 有 无 更 新 消 县 . 此 外 ,用 户 还 必须 自己 从 相应 网 址 下 载 ， 在 计算 
机 上 安装 . 与 商业 软件 不 同 ， 安 装 时 往往 会 出 现 一 些小 问题 . 计算 机 系统 
经 验 不 足 时 , ZERRE. 它们 的 优点 是 可 以 从 源 程 序 学 到 不 少 知识 和 技 
巧 。 有 些 后 来 成 为 商品 的 软件 ， 在 网 上 仍 可 能 音 到 曾经 免费 的 老 版 本 . 
R-611 美国 印 地 安 那 大 学 的 IUBio 生物 学 软件 档案 是 重要 的 信息 资源 之 
一 。 它 的 软件 有 分 类 目录 ， 许 多 数据 库 每 日 更 新 。 网 址 : 
http://iubio.bio.indiana.edu/ 
http://iubio.bio.indiana.edu/soft/molbio/ 
ftp://iubio.bio.indíana.edu (/molbio/) 
IUBio 在 世界 各 地 有 多 处 镜 象 点 ， 请 参看 上 面 第 一 个 网 址 . 
R-612 BioCatalog 是 由 欧洲 生物 信息 研究 所 EBI [R-131] 维护 的 分 子 生 
物 学 和 遗传 学 自由 软件 目录 . 它 按照 不 同 的 平台 (UNIX 、PC: 等 ) 列 
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举 软件 功能 、 人 作者、 引文、 硬件 要 求 以 及 从 网 络 上 获取 的 方法 . 它 欢 
迎 学 者 提供 自己 的 软件 信息 。 BioCataiog 的 网 址 : 
ftp://ftp.ebi.ac.uk (/pub/databases/bio catal/) 
http://www.ebi.ac.uk/biocat/ 

同时 ， 欧 洲 生 物 信 息 研 究 所 EBI [R-131] 的 ftp 服务 器 
ftp://ftp.ebi.ac.uk/ 

上 还 保存 着 另外 一 套 生 物 软件 目录 . 用 无 记名 ftp 进入 之 后 ， 可 在 
/pub/software/dos 和 /pub/software/unix 

子 目 录 中 分 别 找到 适用 于 PC 和 UNIX 平台 的 软件 信息 .北京 大 学 
生物 搞 总 中 心 人 月 镜 象 : 

ftp://ftp.cbi.pku.edu.cn (/pub/software/) 

R-613 美国 国家 生物 技术 信息 中 心 NCBI [R-134] 的 网 页 和 ftp 服务 器 上 ， 
有 两 大 类 免费 软件 。-- 类 是 NCBI 月 己 研 制 的 高 质量 的 生物 软件 ， 
它们 大 都 与 NCBI 的 各 种 数据 库 和 Entrez [R-199] 检索 开具 集成 在 
-- 起 ， 也 可 以 下 载 后 独立 运行 .本 书 提 及 的 Cn3d [R-779] 、 Sequin 
[R-790] 等 ， 以 及 Entrez [R-199] 本 身 都 属于 这 一 类 ， 另 一 类 是 学 者 
们 提供 的 自由 软件 . 

R-614 GenomeWeb 是 由 HGMP [R-140] 维护 的 一 个 详尽 的 与 基因 组 有 
关 的 链接 地 址 和 单位 的 清单 . 它 按 基因 中 心 、 核酸 , 蛋白 质 、 亲缘 树 、 
基因 组 数据 库 、 图 谱 等 项 目 分 类 ， 并 可 按 字 母 检 索 . 问题 是 有 些 地 址 

"UE Hop. 要 多 次 轧 转 才能 找到 .网 址 : 
http://www.hgmp.mrc.ac.uk/GenomeWeb/ 
北京 大 学 生物 信息 中 心 上 有 镜 象 : 
http://www.cbi.pku.edu.cn/GenomeWeb/ 

R-615 BioMedNet ， 生 物 儿 学 研究 人 员 互 联网 团体 (The Internet Com- 
munity for Biological and Medical Researchers) 的 了 网页， 是 另 一 个 新 
消息 的 来 源 . 第 一 次 使 用 时 需 先进 入 也 站 注册 : 
http://wvv.bmn.com/ 

从 这 里 也 可 以 访问 MEDLINE [R-599] ， BioMedNet 的 电子 期 州 目 
录 很 有 用 .网 址 : 
http://journals.bmn.com/ 

T XE ELMO JT fic MC RC SEE IC AE 1977 pp 39 Bt 6 9e pg ifa F dX. 
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R-616 GeneInfo ， 堪 萨 斯 大 学 医学 中 心 维护 的 遗传 专业 人 员 信 息 (Infor- 
mation for Genetic Professionals) 网 页 。 它 有 通 向 遗传 学 学 术 组织 、 
临床 遗传 学 数据 库 、 以 及 遗传 学 计算 机 资源 的 链接 。 网 址 是 : 
http://www.kumc.edu/gec/geneinfo.html 
请 参看 [R-848] . 

R-617 较 新 的 软件 信息 来 源 , 是 第 1 章 提 到 的 期 月 Bioinformatics [R-5] , 
即 过 去 的 C4BiOS . 它 所 发 表 的 算法 ， 均 要 求 作 者 在 两 年 内 公开 相 
AREF. 事实 上 ， 许 多 文章 发 表 时 ， 程 序 已 可 自由 获取 。 

R-618 另 一 个 期 刊 Computer and Chemistry 也 经 常 发 表 与 生物 信息 学 有 
关 的 算法 和 程序 描述 . 


此 外 ， 第 5.14.6 小 节 提 到 的 一 些 个 人 网 页 ， 也 可 参考 . 


85.2 序列 分 析 算 法 概要 


生物 信息 学 计算 的 核心 是 序列 的 比较 ， 这 包括 同一 个 序列 内 不 同上 
段 的 比较 ， 以 及 两 个 或 多 个 序列 的 对 比比 较 的 内 容 ， 从 序列 的 给 分 上 
化 、 寻 找 特殊 的 字段 ， 到 序列 间 字 母 的 对 点 . 比较 的 主要 目的 在 于 阐明 序 
列 之 间 的 同 源 关系 ,以 及 从 已 知 序列 预测 新 序列 的 结构 和 功能 . 所 用 方法 
也 从 半 经 验 的 直观 手段 , 到 具备 较 深 刻 数学 背景 的 复杂 算法 , 跨度 很 大 
本 书 81.3 节点 到 的 书 名 ， 从 [R-24] 到 [R-38] ， 都 是 探讨 序列 分 析 方法 . 
我 们 在 这 一 节 里 ， 只 能 极其 简要 地 介绍 一 些 基本 概念 . 

人 们 之 所 以 在 算法 问题 上 大 作文 章 ， 是 因为 涉及 核酸 和 蛋白质 序列 
的 计算 ， 很 容易 在 存储 容量 和 计算 时 间 两 个 方面 都 超出 现代 计算 机 的 处 
理 能 力 . 


任何 问题 都 有 一 个 特征 尺度 N， 例如 生物 序列 的 长 度 ，N 可 能 从 几 
百 到 几 百 万 。 如果 计 算 时 间 比 例 于 N., N 等 有 限 的 第 次 ， 或 者 说 计算 
时 间 按 N 的 某 种 多 项 式 增长 , 现代 计算 机 还 可 以 处 理 到 比较 大 的 六 .如 
果 计 算 时 间 随 N 的 指数 eX 增加 ， 那 就 根本 不 可 能 处 理 稍 大 的 问题 。 这 
类 需要 “ 非 多 项 式 时间 ” 的 问题 (NP 问题 ) ， 超 出 了 当代 计算 机 的 能 力 ， 
属于 嘉 正 的 计算 难题 . NP 问题 中 有 一 大 类 是 互相 等 价 的 ， 它 们 可 以 用 
多 项 式 时间 彼 此 转换 . 因此 ， 解决 其 中 任何 一 个 就 解决 了 全 类 . 这 类 问题 
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称 为 NP 完备 问题 . fA n], TORRA UEBH Zr EE RR E 1I ERY T8] 
的 算法 ， 也 没有 证 明 不 存在 多 项 式 时 间 的 解法 。 PDNA 序列 分 析 中 的 许多 
问题 ， 都 属于 NP 完备 类 . 

NP 问题 还 有 一 个 特点 ， 即 一 旦 知道 了 它 的 解 ， 只 要 用 多 项 式 时 间 就 
可 以 演示 。 其 实 ， 需 要 多 项 式 时 间 的 某 些 问题 也 是 求解 难 ， 演 小 易 . 


5.2.1 序列 联 配 基 本 概念 


两 个 或 多 个 符号 序列 按 字 母 比 较 ， 尽 可 能 确切 地 反映 它们 之 间 的 相 
似 和 相 异 ， 称 为 序列 的 联 配 (alignment)?* , 

我 们 先 讨 论 序 列 联 配 算法 所 涉及 的 一 些 主要 概念 .核酸 和 蛋白质 序 
列 联 配 的 前 提 是 , 假定 两 个 序列 来 自 同 一 个 祖先 (“ 同 源 "), 它们 在 演化 过 
程 中 由 于 变异 的 积累 而 成 为 不 同 的 序列 。 作为 符号 序列 看 待 ， 点 变异 包括 
字母 的 代 换 (substitution) , MES (deletion) 和 插入 (insertion) ; 插入 和 删 
队 统 称 为 “ 插 删 ” (ndel)? , 两 个 序列 联 电 时 ,往往 要 插入 空位 (gap), 
以 达到 总 体 上 更 好 的 排列 效果 . 每 当 第 一 次 插入 空位 时 ， 要 计 一 定 的 “ 凡 
分 ” (penalty) ; 连续 插入 空位 时 通常 按 比 例 给 以 稍 小 的 罚 分 因此 ， 计 
算 一 组 连续 空位 罚 分 的 公式 是 p=a+bxn， 其 中 nn 是 连续 空位 总 数 , 
两 个 常数 a 和 晴 的 值 ， 与 所 比较 的 是 核酸 还 是 蛋白 质 序列 背 关 ， 疝 且 要 
同 王 面 讲 到 的 打分 矩阵 的 选择 和 数值 范围 适 应 例如， 选用 BLOSUM62 
矩阵 [R-620) 比较 蛋白 质 序 列 时 ， 可 以 取 4= -12 各 b= -2 。 这 是 基于 
统计 和 经 验 的 “艺术 "”， 而 不 是 可 以 简单 论证 的 定量 结果 . 最初 使 用 联 配 
程序 时 ， 宜 先 接受 程序 为 a 和 也 设 定 的 “补缺 ” (default) 值 . 

两 个 核酸 序列 的 联 配 较为 简单 .序列 中 一 个 果 岭 被 罚 喧 代 换 或 反之 ， 
329 881& (transversion); MAM aR RENE H 1$ Fk 79 PER (transition). in RER 
AR R FRR, Gp UU SÉ RBRETETT fr 5B P (score matrix) 或 代 
HHR (substitution matrix), B®: 


24 日前 alignment. -ij4j “ibt”, “ajke”, "HET. “ERER GERA. JA ECRUE: 
际 使 用 方便 看 ， 在 其 具有 特定 意义 的 十 下 文中 ， 不 宜 译 为 普通 词汇 。 因 此 ， 我 们 以 为 “ 联 配 ” 似 
EHAA. 

25 “ 揪 刷 ”是 我 们 为 从 insertion 和 deletion 缩 并 出 的 indel -- 间 建议 的 译名 - 
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a c g t 
ajl 00 9 
c| 1 0 0 
glo 0 1 0 
tjO 0 Q 1 


XL EE, AAE RR AERAR, jn 1 分 ， 否则 记 0 分 。 HAH 
如 下 的 打分 矩阵 ; 
a c g t 

aj 0.9 —0.1 -01 一 0.1 

c|-01 09 -01 -0.1 

g|-01 -01 09 -01 

t| -0.1 -01 -01 09 
BLASTN [R-631] 程序 使 用 的 打分 矩阵 ， 


a c 

a N 

c M 

区 | N N 

t N 

EERM>0MN<0, teil 
设置 . 

20 种 氨基 酸 彼此 之 间 的 代 换 ， 远 比 核 背 酸 复 杂 . 残 基 代 换 所 引起 的 
后 果 ， 与 它们 的 具体 物理 化 学 性 质 有 关 . 加 此 ， 对 各 种 代 接 的 效果 ， 要 有 
所 估计 ， 计 算出 各 种 打分 矩阵 .常用 的 打分 矩阵 有 两 类 ， 即 PAM 和 矩阵 和 
BLOSUM 矩阵 ， 可 参看 AAindex 数据 库 [R-440] . 

R-619 PAM 和 矩阵. M. Dayhoff 等 2 在 20 世 纪 5?70 年 代 后 期 引入 了 

PAM(Point Accepted Mutation) 概念 ， 取 一 个 蛋白 质 序 列 中 的 氨基 


酸 变异 1% 作为 演化 距离 的 单位 , 称 之 为 1 个 PAM, 注意 ，100PAM 
并 不 意味 着 序列 变 得 完全 不 同 ， 因 为 有 些 变 异 是 筷 相 抵消 的 . 


N--—2, HP TELS 


?6 M. O. Dayhoff, R. M. Schwartz, and B. C. Orcutt, “A model of evolutionary 
change in proteins", in Atlas of Protein Sequence and Structure, ed. by M. O. Dayhoff, 
Washington DC, National Biomedical Research Foundation, 1978, 345 — 352, 353 - 358. 
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表 5.1 PAM250 打分 矩阵 


A R ND CQ EGH I L K MF PS TW YY 
2 


-2-3-3-4-6-2-3-4-22 6 

-13 1 0-51 0-20-2--3 5 
-10 -2 -3 -5 -1 --2 -3 -2 2 4 0 6 
—3 —4 —3 —6 —4 -5 --5 -5 -2 1 2 -5 0 9 


[| 
A 
R 
N 
D 
C 
Q 
E 
G 
H 
I 
L 
K 
M 
F 
P 
S 
T 
w 
Y 
M 


1 0 0 -1] 30 -1 0 0-2-3-—1-2-5 6 

1 O 10 0-190 1-1—1-3.0 -2-31 2 
1-100-2-10 0-10-20 -1-30 1 3 

-—6 2 -4 -7 -8 -5 -7 -7 -3 5 —2 —4 —4 0 -6 -2 一 5 1? 

—-3$ —4 —2—-4 0 -4 --4 -5 0 —-1—1-4-2 7 -5-3-3 0 10 
0 -2-2-2-2-2-2—1-24 2 —2 2 -1-1-10 —6—24 


M. Dayhof 等 用 手工 比较 了 当时 数目 有 限 的 同 源 蛋 白质 序列 , 取 实 际 
观察 所 得 的 代 换 频 度 与 随机 背景 序列 的 相应 频 度 比 值 的 对 数 , 用 统计 方法 
得 到 对 应 1PAM 的 数据 ， 再 外 插 到 250PAM . 表 5.1 给 出 常用 的 PAM250 
矩阵 . 实际 计算 中 针对 不 同 的 演化 距离 ， 使 用 从 PAM100 到 PAM500 不 
*x891T4r58 Dg. 亲缘 关 系 近 者 用 PAM100 到 PAM150 ,. 3X RE Hd 
更 高 号 的 矩阵， 相当 于 容许 和 更 高 的 噪声 背景 . 

表 5.1 中 两 个 色 氨 酸 (W) 相 匹 配 得 最 高 分 17 .这 是 因为 在 蛋 凡 质 
中 ， 平 均 含量 只 有 12370 的 色 和 氨 酸 在 序列 中 具有 较 高 的 保守 性 ， 两 个 W 
相 匹 配 是 机 率 较 小 的 非 偶 然 事 件 . 事实 上 ，W 被 其 他 多 数 氨 基 般 代 换 都 
得 负 分 ， 正 表明 它 的 保守 人 性. 与 此 对 照 ,在 蛋白 质 中 平均 含量 达 7.78 久 的 
RATAA (A) 相 匹 配 ， 是 概率 较 高 的 普通 事件 ， 只 得 2 分 (作者 感谢 张 
春 惟 提供 了 从 SWISS-PROT 数据 库 第 37 版 8 万 多 条 和 蛋白质 序列 计算 出 


t78 


K5* #4., if 


的 氨基 酸 平均 含 虽 ) . 
R-620 BLOSUM 矩阵， 近来 使 用 较 多 的 BLOSUM BP 是 根据 BLOCK 
(AL (R-476]) 数据 库 中 罩 和 白质 序列 的 高 度 保守 部 分 的 联 配 自动 产生 


的 。 


见 : 


S. Henikoff, and J. G. Henikoff, Proc. Natl. Acad. Sci. USA 89 (1992) 
10915 - 10919. 


| [AR N DCQE GH! 


R 
N 
D 
c 
Q 
E 
G 
H 
I 
L 
K 
M 
F 
P 
S 
T 
w 
Y 
v 


表 5.2 BLOSUMSG2 15 258 


-35 
-42 5 
-3 一 2 一 2 6 

-30 0 -28 
-1 -3 -3 


L KMF PS T WY V 


-4 -3 4 


—4 -3 2 4 


-2 —1 
-3 -2 


-3-10 0 


-2 一 2 


—8 -3 —4 一 4 一 2 —2 ~3 一 2 一 3 一 3 一 2 一 3 一 


一 2 -2 一 2 —3 一 2 一 一 2 一 3 2 
o 


-3 -3-3-1-2-2-3-33 1 


-3 一 2 5 
1 2 ~15 
-30 6 
-3 -3 一 1 —2 一 4 了 

一 1 -2-14 
-1-1-1-1-2-11 65 
—4 -3 -2 11 
-1-1-2-13 —3 -2 -22 7 
-2 1 -1-2-20 -3-14 


许多 序列 联 配 程序 自动 以 表 5.2 所 示 的 BLOSUM62 1A 8 3€ 11 138 


阵 . 从 BLOSUM30 到 BLOSUM90 都 可 能 用 到 . 请 注意 , 与 PAM Xe PH 


KR, 


BLOSUM 和 矩阵 大 号 对 应 近亲 ， 小 号 对 应 远亲 , 
试 比较 表 5.1 RE 5.2 中 的 数值 ， 可 见 两 者 的 大 趋势 一 致 .一般 认 


X, BLOSUM 比 PAM 贴 好 一 些 。 表 5.3 简要 地 比较 这 两 类 打分 矩阵 . 
许多 程序 设 有 选项 ， 人 允许 用 户 选用 其 中 一 种 . 
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X 5.3 PAM 和 矩阵 和 BLOSUM 和 矩阵 的 比较 


PAM BLOSUM 
得 得 3d IY 48 019 8e 远 练 序列 的 局 域 联 配 
s Kk & RE SEEN TCTE A XC XM IC E Ri BI 
38 $5: oc P (RI 由 近 缘 者 外 手 得 到 直接 计算 得 到 
常见 补缺 PAM250 BLOSUM62 


这 里 要 和 着重 讲 一 下 局 域 联 配 和 整体 联 配 。 生 物 序列 中 有 重要 功能 的 
片段 , 往往 比较 保守 ， 即 变异 的 速率 很 低 . 序列 的 其 他 部 分 可 能 具有 较 高 
的 变 眶 速率 ， 在 演化 过 程 中 变 得 面目 全 非 。 例 如 、 真 核 生 物 的 DNA 序列 
中 ,往往 是 较 短 较 少 的 保守 片段 ,被 其 为 丰 窜 的 高 变异 区 淹没 . 如果 片面 
强调 整体 联 配 ,可 能 会 油 掉 真正 的 辣 源 序 列 . 良好 的 局 域 联 配 什 入 会 更 有 
效 地 揭示 同 源 关系 . 更 有 其 者 ， 真 核 生 物 基因 组 中 存在 种 种 长 短 不 一 的 重 
复 片 段 ， 两 个 序列 的 重复 片段 对 齐 . 可 能 给 出 得 分 很 高 的 联 配 结果 ， 造 成 
间 源 假象 .因此 , 许多 联 配 程序 允许 几 户 决定 是 否 要 “过 滤 ” 掉 简单 的 重 
复 序列 . 

请 注意 , 序列 联 配 时 进 究 的 “复杂 ”和 “简单 ", 与 人 们 研究 “复杂 性” 
和 “复杂 系统 ”时 不 大 相同 . 例如 , 大量 aaaaaaaaaaaaaaaa , tttttttttttttttt 
或 atatatatatatatatat 这 样 的 片段 , 即 所 谓 Poly(a) 、Poly(t) ,或 蛋白 质 序 
Pic E A MPE P 的 片段 , 它们 明显 包含 较 少 信息 , 被 认为 是 简单 的 . M 
反 ， 杂 乱 包 含 a 、c 、E 、t 相 种 字母 的 一 串 、 一般 视 为 复杂 片段 由 计 
算 机 去 作 决 定时 ， 要 有 一 套 算法 . J. Wootton 等 专门 研究 过 这 类 问题 ， 
可 以 参考 他 在 [R-10] 和 [R-31] 中 的 综述 ,读者 如 果 想 看 一 看 “过 滤 ” 简 
单 片 段 的 结果 ， 可 以 调用 RepeatMasker [R-748] 程序 ，“ 加 了 ”一 条 酵母 
染色 体 ， 或 者 在 向 BLAST 提交 序列 时 ， 对 “过 滤 ” 做 不 同 的 选择 . 

绝 大 多 数 序 列 联 配 是 针对 蛋白 质 的 .提交 一 条 蛋白 质 序 列 ， 直 接 同 
蛋白 质 库 里 所 有 的 序列 对 比 ， 不 需 对 序列 再 作 什么 变换 。 如 果 要 把 这 条 
蛋白 质 序列 ， 同 数据 库 里 的 DNA 序列 比较 ， 那 就 要 把 后 者 翻译 成 “蛋白 
M. 对 于 双 链 DNA 的 每 个 单 链 ， 因 为 翻译 起 始点 的 不 同 ， 要 按照 3 个 
读 框 做 翻译 ， 一 共 得 到 6 条 供 比较 用 的 “和 蛋白质” 序列 .提交 一 条 DNA 
序列 ， 去 同 核酸 数据 库 中 的 序列 做 比较 ， 当 然 也 无 需 变换 .如 果 要 同 蛋 丘 
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质 序列 库 做 比较 ， 所 提交 的 DNA 序列 也 得 按照 6 个 读 框 先 翻 译 出 来 ($ 
BLAST 和 FASTA 这 类 遂 冉 程序 ， 序 列 的 变换 部 包含 在 其 功能 之 内 、 几 
只 项 提出 要 求 .。 一 般 地 说 ,翻译 成 蛋白 质 序列 再 进行 联 配 结果 比较 殉 
敏 . 
两 个 蛋白 质 序列 的 “相似 性 ”超过 257, ， 是 同 源 性 的 一 种 镍 证 ,但 不 
是 唯一 的 证 明 ， 必 须 靠 生物 学 知识 来 论证 。 祖 似 性 大 于 30% ， 一 般 比 较 
有 把 握 。 相似 性 低 于 2570 的 情形 ， 被 M. Dayhoff Eos Fe Fx] HEUS “ihag 
区 ” (twilight zone) ,就 更 沉 要 生物 学 释疑， 诸如 两 者 是 否 同 为 细胞 外 系 
白 或 膜 蛋白 、 同 为 多 结构 域 的 蛋白 质 , 或 具有 类 似 的 内 含 子 类 型 等 等 . 


5.2.2 半 经 验 的 直观 算法 


假定 已 经 选择 好 打分 矩阵 、 空 位 乔 分 等 参数 ， 要 求 把 一 条 给 定 的 核 
酸 或 蛋白 质 序 列 , 同 数 据 库 中 所 有 现存 序列 进行 联 配 ， 找 出 最 相似 的 哪些 
序列 ， 这 是 远 非 平庸 的 计算 课题 , 如 果 进 一 步 允许 在 联 配 时 捅 入 空位 ， 计 
算 难 度 就 会 空前 增 大 。 这 首先 是 因为 插入 空位 的 位 置 和 数目 有 大 唱 可 能 
的 组 合 , 一 切 菲 “ 穷 举 ”法 挑 出 最 佳 方案 的 企图 都 会 超出 现在 和 可 以 设 
想 的 未 来 的 计算 机 能 力 . 

从 20 世纪 80 年 代 以 来 ， 人 们 发 展 了 一 些 半 经 验 的 直观 算法 .它们 
可 以 相当 快 地 给 出 较 好 的 结果 ， 但 不 能 保证 所 得 结果 是 最 优 的 。 BLAST 
各 FASTA 就 是 很 成 功 的 实例 . 我 们 极其 简单 地 说 明 一 下 BLAST 算法 的 
基本 思想 . 首先 ，BLAST 事先 为 数据 库 里 的 全 部 序列 作 了 “索引 ". 它 首 
先 规 定 了 一 个 字母 串 长 度 (在 FASTA 中 相应 参数 为 WORD 或 ktup) ， 
对 DNA 序列 是 11 ， 蛋 白质 序列 是 6 . 把 每 个 序列 所 含 的 此 种 中 的 类 型 
作为 索引 .提交 一 个 新 序列 时 ， 也 先 对 它 微 索引 .只 有 索引 类 型 兼容 的 库 
中 序列 才 用 来 做 比较 .。 这样 就 大 为 减少 了 搜索 下 作 量 . 其 次 ， 从 局 域 联 配 
得 分 最 商 的 片段 开始 ,向 左右 两 端 延伸， 直到 一 端 到 头 或 总 计 分 下 降 赵 过 
事先 设置 的 值 . 然后 再 把 这 样 得 到 的 结果 作 比 较 , 选 出 统计 上 最 显 苦 的 甫 
些 ， 排 队 输 出 . 


5.2.3 ”动态 规划 算法 
动态 规划 是 把 大 问题 按时 间 步 又 或 空间 分 布 分 割 处 理 、 逐 步 寻 求 最 
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优 结果 的 一 套 算法 . ud] de a n ERAMA, EM CEU c 
佳 路 径 。 Hk Ls CST E POR FF PU OSEE Gc He DOR e 9 o0 E E: 
R-621 S. B. Needle, and G. E. Wunsch, “A general method applicable to the 
search for similarities in the amino acid sequences of two proteins". J. 
Mol. Biol. 48 (1970) 443 — 453. 
R-622 P. H. Sellers, *On the theory and computation of evolutionary dis- 
tances”, SIAM J. Appl. Math. 26 (1974) 787 - 793. 


后 来 Smith 和 Waterman 把 动态 规划 算法 用 于 寻求 序列 的 疝 域 壤 优 
联 配 . 

R-623 Smith-Waterman 算法 : 

T. F. Smith, and M. S. Waterman, "Identification of common molecular 

subsequences”, J. Mol. Biol. 147 (1981) 195 - 197; Adv. Appl. Math. 

2 (1981) 482 - 489. 

55 5:380 X 75 2; HP A PO BET IEEE DO OR” HIT, ait 
Ri5IBEFT N?, N 是 问题 的 尺寸 ， 例 如 序列 长 度 。 因此， 在 很 长 时 期 
里 入 们 不 能 使 用 此 法 ， 而 不 得 不 满足 于 半 经 验 的 直观 算法 ， 诸 如 BLAST 
和 FASTA 所 使 用 的 办 法 . 随 着 计算 机 速度 的 增长 ， 这 种 限制 已 不 严重 . 
因此 , 越 来 越 多 的 生物 信息 中 心 开 始 提 供 使 用 Smith-Waterman 算法 的 服 
务 . 这 方面 比较 好 的 一 个 程序 是 SSEARCH : 

R-624 SSEARCH3 程序 实现 Smith-Waterman 算法 ， 是 FASTA3 程序 包 

的 一 部 分 ， 也 可 以 单独 调用 .请 参看 [(R-642]. 

关于 动态 规划 算法 的 详情 ， 可 参看 M. S. Waterman (t € X€ [R-29] . 


5.2.4 神经 网 络 和 隐 马 可 夫 链 


昼 经 网 络 算法 是 对 生物 神经 系统 信息 处 理 过 程 的 极其 肤浅 的 模拟 . 
它 有 一 个 输入 层面 , 一 个 输出 层面 . 这 两 个 层面 之 间 还 可 以 有 有 若干 隐 含 的 
“学 习 ” 层 面 . 每 个 层面 中 有 许多 结 点 . 结 点 之 间 的 连接 有 种 种 方案 、 伍 
个 结 点 如 稿 径 输入 信号 转变 为 输出 (传递 函数 ) ， 也 有 不 少 选择 。 要 用 大 
量 已 知 前 因 后 果 的 数据 对 神经 网 络 进行 训 绕 ， 也 就 是 对 其 包含 的 大 明 参 
MEME. 经 过 训练 的 神经 网 络 ， 可 以 从 同类 的 未 经 处 理 的 数据 中 提取 信 
息 . 这 虽然 被 人 们 视 作 计算 机 学 习 和 提取 知识 的 实例 ,训练 数据 选择 恰当 
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时 ， 也 能 够 解决 某 些 实际 问题 ， 但 是 隐藏 在 大 量 参数 中 的 “知识 "， 很 难 
提炼 成 简单 明白 的 指导 原则 ,真正 丰富 人 类 的 知识 宝库 . 这 是 神经 网 络 模 
型 的 基本 弱点 . 
作为 离散 随 极 过 程 ， 务 种 蕊 可 夫 链 (Markov chain) $ E £4 $c X fit 
数学 基础 . Ha. c. g. t 四 种 字母 组 成 的 一 条 长 序列 ， 姻 果 二 完全 随 
机 的 ， 任 何 一 个 字母 后 随 任 意 其 他 字母 的 概率 都 相间 , Bü, aa. ac, 
ag. at 出 现 的 概率 相等 ， 都 是 1/4 = 025. REH, aa, ac. 
如一 9 和 a 一 上 的 “转移 概率 ”都 是 0.25 . METRAR GS UR" BUE 
母 之 间 的 “转移 概 率 ”、 构 造 出 一 个 离散 随机 过 程 ， 是 为 一 阶 包 可 大 链 . 
从 某 物 种 的 一 条 实际 DNA 序列 可 以 计算 出 一 套 “ 状 态 概率 ”和 “转移 概 
率 ”， 构 造 相应 的 与 可 大 链 。 用 这 样 的 模型 可 以 检验 给 定 的 另 一 个 DNA 
序列 是 否 骆 于 该 物种 . 然而 , 这 类 简单 马 可 夫 链 能 处 理 的 问题 十 分 有 中. 
哺乳 动物 基因 组 的 每 条 单 链 DNA 中 ， 从 57 端 往 3 端 计数 ， cg 的 
数目 显著 少 于 gc 数 自 ， 市 且 分 布 不 均匀 ,哪些 cg 比较 集中 的 片段 ， 称 
为 CpG Hy (参看 数据 库 [R-323] 的 简要 说 明 ) . 它们 往往 是 基 其 启动 子 区 
域 的 标记 可 以 分 中 绝 造 两 个 乌 可 夫 链 ， 对 应 CpG 岛 和 非 CpG 岛 的 区 
域 . 然后 引入 在 两 个 乌 可 夫 链 之 间 的 比较 小 的 转移 概率 ， 撒 述 是 类 区 坏 的 
SETA. 这 就 是 一 个 简单 的 隐 马 可 夫 链 模型 ， 可 用 于 识别 CpG 岛 的 边界 。 
为 了 反映 序列 中 的 空位 或 字母 的 “ 插 删 "、 内 含 子 与 外 显 子 的 苯 切 等 ， 都 
可 以 构造 相应 的 隐 乌 可 夫 链 模型 . 
神经 网 络 、 马 可 夫 链 和 隐 马 可 夫 链 都 是 基于 概 宰 论 的 算法 ， 静 是 数 
据 库 知识 发 现 (Knowledge Discovery in Databases, ， 简 称 KDD) 或 数据 采 
矿 (Data Mining ， 简 称 DM) 中 常用 的 方法 . 关于 KDD 和 DM ， 可 从 以 
下 网 址 开始 网 上 浏览 : 
R-625 KDD 数据 库 知 识 发 现 网 页 ， 
http://www.kdnuggets.com/ 
R-626 DM ERT oc RA Bog: 
http://www.cs.bham.ac.uk/^anp/ 
贝 叶 斯 统计 (Bayes statistics) 是 从 大 重 数 据 中 用 统计 方法 提取 知识 
的 基本 工具 . 由 于 需要 从 “ 先 验 ”分 布 出 发 , 历史 上 曾经 引发 过 争论 . 对 于 
先 验 分 布 , 现在 有 了 较 好 的 理论 基础 ,而 计算 机 使 得 反复 迁 代 变 得 轻 而 易 
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举 ， 最 终结 果 可 以 与 初始 分 布 无 关 . 因此 ， 贝 叶 斯 统计 重新 受到 重视 . 有 
KER, WSE [R-18] 等 书 . 


5.2.5 ”语言 学 方法 


自从 20 世纪 70 年 代 测 得 第 一 个 DNA 序列 以 来 ， 统 计 方 法 就 是 处 
理 生物 学 符号 序列 的 重要 手段 ,而 随机 序列 则 是 统计 评 逢 的 基本 参考 . 实 
际 的 生物 序列 ， 无 论 DNA 还 是 蛋白 质 ， 当 然 都 不 是 随机 的 . fofi, AR 
刻画 的 角度 不 妥 ， 所 提取 的 许多 特征 量 又 离开 随机 不 近 . 这 表 山 ， 统 计 方 
法 不 是 以 充分 放大 DNA 序列 与 随机 序列 之 痢 ， 以 及 DNA 序列 之 闻 的 区 
别 ， 必 须 寻 求 越 出 单纯 统计 方法 的 新 途径 . 语言 学 方法 可 能 值得 注意 . 

数据 闫 中 的 核酸 和 蛋 自 质 记录 ， 都 是 有 方向 的 、 可 以 技 确定 方式 从 
左 向 右 让 的 一 维 序列 。 核 酸 邮 4 种 字母 组 成 ， 蛋 白质 由 20 REED BE. 
它们 都 自然 地 满足 语音 的 形式 定义 可 以 借助 语言 学 方法 有 拙 以 研究 . 事实 
上 ， 从 提出 “中 心 法 则 ”以 来 ， 转 亲 、 翻 译 、 编 辑 、 修 饰 等 等 具有 语言 背 
景 的 术语 就 在 分 子 生 物 学 中 广泛 应 记 。 

生物 遗传 语言 和 大 类 自然 语言 在 许 多 相似 之 处 ， 例 如 多 义 性 、 宛 余 
性 、 窑 错 或 纠 错 性 、 有 长 程 关 联 、 有 某 种 语法 框架 但 不 能 完全 “生成 ”， 
存在 多 种 方言 和 个 和 体 差异 、 都 有 演化 和 灭绝 问题 ， 都 保留 着 少数 “古语 ” 
或 “化 看 ”成 分 ， 等 等 。 同 时， 它们 又 有 深刻 差别 ,例如 标点 和 间隔 的 不 
同 、 两 种 或 多 种 语言 的 机 昌 作用 、 重 复 序列 的 数目 和 功能 不 同等 .经 过 一 
定 程 度 的 抽象 后 ， 语 言 学 (language 而 不 是 philology) 的 方法 应 能 在 生物 
信息 学 中 发 挥 更 大 作用 ， 

第 一 ， 在 语言 学 中 已 经 对 生成 语法 和 诺言 的 复杂 性 有 较 好 的 分 类 . 
按照 N. Chomsky 的 囊 行 生 成 语法 ， 庄 言 区 分 为 正规 诺言 、 圭 下文 无 关 诸 
言 、 上 下 文 有 关 语 言 和 递 炸 可 数 语言 四 个 层次 。 DNA 序列 中 的 个 别 “ 字 
法 ”可 以 和 某 些 层次 对 应 , 例如 回 文 (palindrome) 对 应 上 下 文 无 关 语法， 
HBA (参看 [R-272]) 对 应 上 下 文 有 关 语 法 . 使 用 语法 规则 寻找 基因 的 
尝试 见 [R-703] . 

第 二 ， 并 行 生成 的 Lindenmayer 系统 A E o EA Er b or b Nw ex, 
预期 在 生物 问题 中 会 有 更 多 应 用 , 但 目前 尚未 引起 充分 注意 . 形式 滞 法 很 
容易 推广 成 模糊 语法 . 然而 ， 只 有 能 进一步 对 模糊 程度 作 定 晶 刻 画 ， 才 会 
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更 贴近 生物 学 . 
第 三 ， 还 应 研究 随机 语法 。 隐 与 可 大 链 模型 相当 于 随机 椒 规 语法 ， 
更 复杂 的 层次 仍 有 待 钻 研 , Domin. Xe Bruti ou, NU E 
于 离散 的 排列 组 合 系统 ， 纠 合 学 方法 应 能 在 建立 生命 现象 的 埋 论 方 页 发 
HS EIIEH. 
本 书 作 者 们 最 近 由 细菌 完全 基因 组 出 发 定义 了 一 种 “可 内 式 化 ” 语 
言 , 严格 解决 了 研究 基因 组 中 缺失 和 稀少 字母 串 时 过 到 的 一 个 计数 问题 ， 
同时 也 用 组 合 学 方法 得 到 一 致 的 结果 .和 希望 这 些 初 步 党 试 能 收 抛砖引玉 
之 效 : 
R-627 B. L. Hao (88f M), H. C. Lee and S. Y. Zhang (3E i 2$), “Fractals re- 
lated to long DNA sequences and complete genomes", Chaos, Solitons 
and Fractals 11 (2000) 825 - 836. 
R-628 Bai-lin Hao { 郁 柏 林 ), “Fractals from genomes: exact solutions of a 
biology-inspired problem", Physica A282 (2000) 225 - 246. 
关于 形式 语言 学 的 基本 概念 和 引文 ， 请 参看 谢 惠 民 的 专 苦 ， 
R-629 谢 惠 民 ，《 复 杂 性 与 动力 系统 》， 上 海 科技 教育 出 版 社 ， 1994 . 
R-630 Hui-min Xie, Grammatical Complezity and One-Dimensional Dynam- 
ical Systems, in Directions in Chaos, vol. 6, ed. by Bai-lin Hao, World 
Scientific Publishing Co., 1996. 


85.3 BLAST, FASTA 和 类 似 服务 


BLAST 和 FASTA 是 使 用 得 最 为 频繁 的 两 套数 据 库 搜索 程序 ， 它 们 
的 功能 相近 ， 都 是 把 用 户 提 交 的 一 个 核酸 序列 或 蛋白 质 序列 ， 拿 去 同 指定 
的 数据 库 中 的 全 部 序列 作 比 较 . 它们 的 使 用 方法 也 大 同 小 异 : 可 用 电子 邮 
件 提交 序列 并 指定 各 种 参数 , 可 以 在 浏览 器 里 填 表 提交 作业 , 还 可 以 把 它 
们 下 载 到 自己 的 计算 机 土 运行 , 不 过 这 时 要 备 有 所 需 的 数据 库 . 比 BLAST 
和 FASTA 晚 出 现 10 年 的 BLITZ [R-651] 服务 器 ， 使 用 Smith-Waterman 
[R-623] 算法 ， 拿 用 户 握 交 的 蛋白 质 序列 同 数据 库 中 的 序列 作 比 较 . 另 一 
个 集成 了 BLAST, FASTA 和 Smith-Waterman 算法 、 旗 可 以 比较 蛋白 质 
也 可 以 比较 DNA 序列 的 服务 器 ， 是 美国 橡树 岭 国 家 实验 室 的 GenQuest 
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[R-652] 。 它 们 的 用 法 与 BLAST 和 FASTA 相似 ， 放 在 这 一 节 里 一 起 叙 
述 . 还 有 一 些 专门 显示 BLAST 或 FASTA 和 输出 结果 的 程序 ， 也 在 本 节 最 
de. 

一 般 认 为 ， BLAST 运行 速度 快 ， 对 蛋白 质 序列 的 搜寻 拒 为 入 效 ， 
FASTA 运行 较 慢 ， 对 核酸 序列 更 为 敏感 . 蛋白质 序列 的 比较 ， 和 入 可 以 
T8 20 亿 ~ 30 亿 年 前 分 首发 展 的 同 渡头 系 . 而 DNA 序列 的 比较 只 能 问 
湖 2 亿 ~5 亿 年 关 。 四 此 ， 通 常 应 先 做 蛋白 质 序列 的 比较 ， 再 对 比 核 版 
序列 .只 要 条 件 允 许 ， 就 应 当 BLAST 和 FASTA REAT, AME HI. 

用 电子 邮件 提交 序列 时 ， 用 户 应 当知 道 如 何 选 取 参 数 和 网 读 服务 器 
送 问 来 的 结果 . 不 启 的 参数 选择 ， 可 能 返回 其 别 极 大 的 结果 . Bp ETT 
Sará BLAST, FASTA, BLITZ 和 GenQuest 四 种 电子 邮件 服务 的 
使 用 方法 . 


5.3.1 BLAST 服务 


BLAST 是 “基本 所 域 联 配 搜 导 下 具 ” (Basic Local Alignment Search 
Tool”) 的 字 头 缩写 。 BLAST 算法 的 最 初 描述 见 : 

R-631 S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman, 
J. Mol. Biol. 215 (1990) 403 —- 410. 

IE ggg BLAST 进行 序列 联 配 时 不 容许 插入 空位 ， 后 来 取消 了 这 一 
限制 . 参见 ， 

R-632 S. F. Altschul 等 7 位 作者 ，“Gapped BLAST and PSI-BLAST: a new 
generation of protein database search program", Nucleic Acids Res. 25 
(1997) 3389 - 3402. 

上 文 标题 中 的 PSI 是 Position Specific Iterated 的 编写 . WE 1999 年 4 
月 12 日 出 版 的 The Scientist 杂志 报道 ， 此 文 发 表 两 年 引用 超过 500 次 
因此 ， 和 牛津 大 学 出 版 社 特别 把 它 放 到 网 页 上 ， 供 学 者 免费 下 载 。 网 址 : 

R-633 http://nar.oupjournals.org/ 

Brig PSI ， 是 先 从 给 定 的 打分 答 阵 出 发 ， 由 库 中 选 出 相似 性 高 的 一 
批 序列 . 把 这 些 序列 同 给 定 序列 作 联 配 ， 计 算出 新 的 打分 第 阵 ， 再 到 库 中 


27 参看 W.R. Pearson 在 [R-23]. - 书 第 186 页 的 论述 . 
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搜索 . ARRE SELON BAI EIER. 关于 使 用 PSLBLAST fF i 
3185 89 82 uc dE NL. 
R-634 J. Gouzy, F. Corpet, and D. Kahn, Comput. Chem. 23 (1999) 333 - 
340. 
BLAST 是 运行 速度 甚 快 的 数据 库 搜 索 程 序 ， 许 多 生物 信息 中 心 都 
有 专门 运行 BLAST 的 服务 器 。 从 1998 年 10 月 起 ， NCBI 服务 器 运行 
Gapped BLAST [R-632] ,又 称 BLAST2.0 . 请 注意 ，BLAST2.0 不 同 于 华 
HERR GER) WU-BLAST2 . 下 面 EBI 服务 器 运行 的 就 是 WU-BLAST2 . 
R-635 主要 的 BLAST 服务 器 网 址 如 下 ， 
http://www.ncbi.nlm.nih.gov/BLAST/ (运行 BLASTR2.0) 
http://www.ebi.ac.uk/ (运行 WU-BLAST2) 
http://blast.wustl.edu/ 
http://www.blast.genome.ad.jp/ 
(日 本 GenomeNet ， 运 行 BLAST2.0) 
http://rtcmain.rtc.riken.go.jp/BLAST/ 
{ 日 本 理化 研究 所 ， 运 行 BLAST2.0) 
mailto:blastOncbi.nlm.nih.gov 
mailto:blastQebi.ac.uk 
mailto:blastÓnig.ac.jp 


上 面 这 些 服务 器 的 使 用 方法 大 则 小 异 ， 主 要 差别 在 于 所 搜 嫂 的 本 地 
DNA 数据 库 . 至 于 蛋白 质 库 , 大 家 都 少不了 SWISS-PROT [R-401 、PIR 
[R-404] 和 PDB (R-441]. 然而， 数据 库 的 具体 组 织 和 名 称 仍 有 差别 .人 参 
数 设置 也 有 一 些 差别 . 使 用 任何 一 个 服务 器 .都 应 事先 弄 明白 这 些 细节 . 

用 户 可 用 电子 邮件 或 通过 网 页 向 BLAST 服务 器 提交 序列 , 经 过 一 段 
时 间 后 获得 搜寻 结果 , 也 可 以 把 BLAST 下 载 到 本 地 计算 机 上 运行 , 但 要 
有 相应 的 配套 数据 库 . 下面 介绍 用 电子 邮件 提交 序列 到 NCBI 的 BLAST 
服务 器 时 ， 如 何 选 择 程序 和 设 定 参 数 . 

第 一 ， 根 据 所 提交 的 序列 类 型 和 要 求 搜索 的 数据 库 类 型 ， 以 及 是 否 
要 把 核酸 序列 翻译 成 蛋白 质 , 选取 BLAST 程序 的 一 种 工作 方式 或 恋 种 ， 
BLAST 的 五 种 可 能 的 选择 列 在 表 5.4 中 . 
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二 


3. 5.4 BLAST 程序 的 几 种 工作 方式 


程序 ed n» Te ge Xu 
BLASTN 核酸 核酸 

BLASTP rM SELF 
BLASTX HA 6-riEH KL 
TBLASTN Efi 核酸 的 6 4 iE 


TBLASTX HRN 6 tik & 核酸 的 6 rite 


从 表 5.4 可 见 , 在 BLAST Amm T 表示 要 求 进 行 翻 译 , Je AN. 
P 分 别 表 示 核 酸 和 蛋白质 笃 ， 共 则 表示 某 种 “交叉 ”比较 注意 、 运 行 
TBLASTN 和 TBLASTX 时 ， 要 对 库 中 的 大 量 DNA 序列 作 6 Aik tHE m 
翻译 ， 因 而 要 求 更 多 计算 时 间 。 TBLASTX 虽然 是 在 比较 核酸 序列 ， 了 得 
中 间 要 按 6 个 读 框 翻译 成 氨基 酸 序 列 ， 这 样 可 以 提高 灵敏 度 . 
第 二 , 区 规定 请 BLAST 搜索 哪些 数据 库 . 可 能 的 选择 列 在 表 5.5 中 。 
第 三 ， 要 选择 恰当 的 过 波 程 序 . 除 BLASTN 外 ， 可 以 选用 的 过 滤 程 
序 为 SEG. XNU 或 其 组 合 。 SEG 过 滤 掉 序列 中 的 “ 低 复 杂记 ”区 域 ， 
FAR Poly(A). Poly(T) 3X FÉ B9 Hr E SHADE, D PECCATI gp f) 
区 . XNU 过 滤 简 单 的 重复 片段 ， BLASTN 只 能 选用 或 不 用 DUST 过 滤 
程序 .另外 还 有 需要 与 RepBase [R-223] SUE PERE-G (EHI 89 CENSOR 过 
波 程 序 、 有 些 过 滤 程 序 可 以 单独 访问 例如: 
R-636 SEG J BF, WEAR: 
J. C. Wootton, and S. Federhen, Comput. Chem. 17 (1993) 149 - 163. 
网 址 ， 
ftp://ncbi.nlm.nih.gov (/pub/seg/) 
请 注意 ， SEG 的 补缺 参数 原 是 为 蛋白 质 序列 设置 的 . 对 DNA 序列 
应 改 为 window size 20 和 complexity threshold 0.8 , 
R-637 XNU HREF. 网 址 : 
ftp://ncbi.nlm.nih.gov (/pub/xnu/) 
R-638 DUST 过 滤 程 序 ， 网址 : 
ftp://ncbi.nlm.nih.gov (/pub/tatusov/dust/) 
R-639 CENSOR 过 滤 程 序 ， 找 述 见 ; 
J. Jurka, P. Klonowski, V. Dagman, and P. Pelton, Comput. Chem. 
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£ 5.5 BLAST 程序 可 以 搜索 的 几 种 数据 库 

说 明 

PDB-SWISS-PROT-PIR 的 目光 余 
Hr RFH GenBank W Hit 

最 近 30 KA EEE p E d 9 si 

BAR SWISS-PROT ik É Mi FE AIE 

YEAST RE E E AFEA 

ECOLI A Aa HE d HEUS LIBET 09 de 03 Y 8 

PDB PDB Jf M di ÉLUS 9g 

KABATPRO [KABAT|| 与 免疫 有 关 序 列 的 Kabat 1E 

ACR SWISS-PROT iE t éy i X fT T 

由 部 分 ALU 重复 序列 里 详 出 的 数据 库 

GenBank 二 EMBL+DDBJ+PDB £f llot 3: 
序列 但 不 包括 EST, STS, GSS Al HTGS 

最 近 30 天 内 上 述 岩 中 晶 新 过 的 序列 

BUNTE UE SEDI EB H5) 

Xo FF METATR HE 38 

GenBank-FEMBL--DDBJ piwi EST 

GenBank--EMBL-4-DDBJ v totá STS 

Pru a) EA HJ 

由 PDB =i tä ti ei HEr FEA 

RepBase 中 挑选 的 ALU 序列 


20 (1996) 119 - 121. 

网 址 : 

ftp://ncbi.nlm.nih.gov (/pub/repository/censor/) 

还 有 RepeatMasker (R-748] 程序 ， 也 值得 参考 ， 

第 四 ， 几 个 最 重要 的 参数 ， 需 稍 加 说 明 . 

期 待 (EXPECT) 值 E 是 假定 所 提交 的 序列 和 库 中 全 部 序列 都 是 随 
机 序列 ， 所 预期 的 符合 数 自 .只 有 搜索 时 找到 的 期 待 值 比 五 小 的 符合 序 
列 , A (EXE SR IL E 信 自用 户 给 定 ， 范 围 从 0~1090 ,补缺 值 是 10. 

BLAST 程序 返回 的 结果 ， 由 三 部 分 组 成 。 第 一 部 分 是 对 匹配 序列 的 
简单 描述 ， 由 参数 DESCRIPTION 规定 返回 的 行 数 ， 补 缺 值 为 100 。 第 
二 部 分 给 出 数据 库 中 得 分 最 高 的 序列 的 联 配 图 ， 其 组 数 由 参数 ALIGN- 
MENT 规定 ， 补 缺 值 为 50 .第 三 部 分 是 一 个 表明 匹配 统计 的 直方 图 ， 
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由 参数 HISTOGRAM 规定 ， 补 缺 值 是 YES . 通过 参数 ALIGNMENT, 
DESCRIPTION 和 HISTOGRAM 可 以 控制 输出 量 或 取消 相应 输出 。 


BLAST 的 其 余 参 数 见 表 56. 
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参数 nae 可 选 值 和 说 明 E 
NEW "TRUE' 'FALSE/ 用 老 的 BLAST L4 版 
PROGRAM dd METZ] 

DATALIB DA Wd 5.5 

BEGIN AE, BAA -条 后 面 随 以 FASTA PARWA RR 
EXPECT 10 可 带 人 小数 点 

CUTOFF gj EXPECT 值 算得 

MATRIX BLOSUMS62 PAM40, PAMI120 


PAM250, IDENTITY 
BLASTN 4H] MATRIX 
ALIGNMENTS 50 


DESCRIPTION 100 i& in] 73 Er H^ SUR e 91 B9 (1 e 

HISTOGRAM YES NO 

ACKNOWLEDGE 120 

FILTER DUST NONE(BLASTN) 

SEG NONE, XNU+SEG 

XNU, SEG--XNU 

GCODE 1 ERER EHHE 
目前 有 14 种 选择 

GAP.EXISTENCE 5 空位 起 始 罚 分 a 

GAP.EXTEND 2 室 位 延长 罚 分 b 

HTML NO YES: PRH HTML 格式 

NCBLGI NO g 4 NCBI 的 Gl 序列 编导 

SPLIT 1000 B -FEBE iI 

STRAND DOUBLE(BOTH) SINGLE(TOP,PLUS,4-) 
COMPLEMENTRAY(MINUS,-) 

PATH 发 信人 E-mail 地 址 5$ — E-mail Mint 


现在 供 助 一 个 实例 ， 演 示 如 何 用 电子 邮件 提交 查询 序列 、 我 们 注意 
PERR Pyrococcus abyssi 的 完全 基因 组 中 ， 有 一 个 重复 出 现 多 次 的 
长 度 为 18 的 字母 串 gttccaataagactaaaa .这 本 身 已 是 远 非 平庸 的 事件 ， 
因为 P. abyssi 的 全 长 1765 118 个 字母 的 环形 DNA 如 为 随机 序列 、 其 中 
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特定 的 字 长 18 BUB HEKER A 1 765 118x4719—0.0 066 ， 重 复 
出 现 的 概率 就 更 小 了 . 我 们 发 如 下 的 电子 邮件 ,请 BLAST ftox T4 rh 's 
数据 库 中 所 有 的 DNA 序列 进行 比较 ， 看 看 它 还 在 哪些 序列 中 出 现 过 (省 
略 了 一 些 次 要 语 侣 ) : 

From: haoditp.ac.cn 

To: blastfncbi.nlm.nih.gov 

Subject: 

PROGRAM BLASTN 

DATALIB NR 

BEGIN 

> tmpseq.1 Pabyesi2 

gttccaataagactaaaa 


这 封 电子 邮件 中 除了 必须 指定 的 程序 BLASTN 和 数据 库 NR 外 ， 其 
余 参 数 都 使 用 系统 设置 的 补缺 值 。 返 回 的 结果 很 长 ， 我 们 只 印 出 一 小 部 
5 


From blastsvcOmiles.nlm.nih.gov fri Jan 21 17:28 CST 2000 
Date: Fri, 21 Jan 2000 04:11:39 -0500 (EST) 
To: baoGitp.ac.cn 
Subject: [E-mail Blast] tmpseq 1 Pyro2 
From: BLAST E-Mail Server «blastGmcbi.nlm.nih.gov» 
BLASTN 2.0.10 [4ug-26-1999] 
Querys Pyro2 
(18 letters) 
Database: Non-redundant GenBank*EMBL*DDBJ-PDB sequences 
515,812 sequences; 1,484,651,443 total letters 


Score E 
Sequences producing significant alignments: (bits) Value 
*mb|AJ248288.1|1CNSPAXOG Pyrococcus abyssi genome; segne... 36 0.019 
«mblAJ248286.1|]CNSPAXO4 Pyrococcus abyssi genome; segme... 36 0.019 
*«mbÍlAJ248283.1!CRSPAXO1 Pyrococcus abyasi genome; segme... 36 0.019 
dbj AP000006 | AP000006 Pyrococcus horíkoshii OT3 DNA,994... 36 0.019 
emb|X58253|LEUBI3 Tomato ubi3 gene for ubiquitin 32 0.30 


ett tt tmÀ 


根据 DESCRIPTION 值 返回 的 50 行 简短 说 明 , 我 们 只 印 出 前 5 (7. 
E = 0.019 表明 ， 它 们 绝 不 是 偶然 巧合 . 具体 数值 0.019 的 计算 ,需要 知道 
一 些 “ 内 部 ”算法 ， 但 我 们 很 容易 估计 它 的 数量 级 .从 上 耐 返 同 的 数据 、 
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知道 序列 的 平均 长 度 是 ] 484 651 443/515 812—2 878 ,. RERA MEIT 
列 ， 它 们 一 共 导 致 (2 878-18-1)x 515 812 个 长 度 为 18 WR, SEDE SE — 
个 特定 串 出 现 的 概率 4775, $$) 0.086 。 这 个 从 随机 模型 估计 的 信 ， 与 
0.019 相去 不 多 .对 于 较 长 的 询 阿 序列 ， 竹 往返 回 小 于 107 f E (f, 
解读 成 “之 不 偶然 ”就 成 了 . 
上 面前 3 行 都 来 自 EMBL Æp P. abyssi A O W ZE E KAUFE IY 
不 同 片 段 ， 进 -- 步 验证 了 我 们 的 观察 ， 即 gttccaataagactaaaa 是 重复 出 
REKI “FP. 上 上 面 第 1 行 简短 说 明 对 应 如 下 的 的 详细 说 明 ， 
>emb|lAJ248288.1|CNSPAXOG6 Pyrococcus abyssi complete genome; segment 6/6 
Length = 265118 
Score = 36.2 bits (18), Expect = O.019 
Identities - 18/18 (1004) 
Strand = Plus / Plus 
Query: 1 gttccaataagactaaaa 18 
VUES ELEPEL LL T ET 
Sbjct: 260129 gttccaataagactaaaa 260146 


它 一 共 给 出 27 组 准确 联 配 的 图 泵 ， 上 面 只 印 出 第 1 组 . 35 4 iri ui 
说 时 对 应 的 情况 中 ,也 人 有 25 组 是 准确 联 配 . 但 这 个 序列 来 自 DDBJ red 
另 一 个 热 球 昔 Pyrococcus horikoshii ， 它 与 P. abyssi 均 为 同一 个 属 的 继 
菌 . 所 有 其 他 结果 中 ， 都 没有 10090 的 准确 联 配 例如， 第 5 行 简 短 说 是 
来 自 番 苟 的 泛 激 素 基 因 ， 但 18 个 字母 中 只 有 16 个 完全 匹配 : 
»embiX58253|LEUBI3 Tomato ubi3 gene for ubiquitin 
Length a 2374 
Score = 32.2 bits (16), Expect = 0.30 
Identities = 16/16 (1007) 
Strand = Plus / Minus 
Query: 3 — tccaataagactaaaa 18 
HL ELITUELETEN II 
Sbjct: 576 tccaataagactaaaa 561 


返回 结果 的 最 后 部 分 , 是 这 一 次 数据 库 搜 好 所 使 用 的 参数 (包括 补缺 
值 ) ， 以 及 一 些 计 算出 的 参数 值 ， 我 们 只 列 出 其 中 一 部 分 - 
Database: Non-redundant GenBank*EMBL*DDBJ*PDB sequences 


Posted date: Jan 15, 2000 6:09 PM 
Number of letters in database: 1,484,651,443 
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Number of sequences in database: 515,812 


Lambda K H 
1.37 0.711 1.31 

Gapped 

Lambda K H 
1.37 0.711 1.31 


Matrix: blastn matrix:1 -3 

Gap Penalties: Existence: 5, Extension: 2 
Number of Hits to DB: 4654 

Number of Sequences: 515812 

Number of extensions: 4654 

Number of successful extensions: 4654 
Number of sequences better than 20.0: 373 
length of query: 18 

length of database: 1,484,651,443 
effective HSP length: 17 

effective length of query: 1 

effective length of database: 1,475,882,639 
effective search space: 1475882639 
effective search space used: 1475882639 
17:0 

A: 0 

Xi: 6 (11.9 bits) 

X2: 10 (19.8 bits) 

S1: 12 (24.2 bits) 

S2: 13 (26.3 bits) 


上 面 所 示 的 简单 查询 ， 根 本 未 涉及 基因 及 其 产物 的 生物 学 解释 、 然 
而 ， 它 告诉 我 们 ,在 各 个 核 通 数据 库 迄 今 所 收入 的 515 812 个 序列 中 ， 18 
个 字母 的 短 串 gttccaataagactaaaa 只 出 现在 Pyrococcus 这 一 个 书 的 两 个 
细 功 中 ， 而 且 是 高 度 重 复出 现 . 它 能 不 能 成 为 这 个 局 的 标记 序列 呢 ? 

顺便 提 -- 下 ， 美 国 橡树 岭 国家 实 蛤 室 的 GenQuest [R-652] 服务 器 也 
允许 选择 BLAST FRI, 


5.3.2 FASTA 服务 


FASTA 是 另外 一 变 根 据 用 户 提交 的 单个 序列 进行 数据 岸 搜索 的 程 
FF. 一 般 认 为 ，FASTA 对 于 核酸 序列 的 比较 更 敏感 一 些 . 它 的 发 展 经 历 
了 三 个 阶段 : 
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R-640 FASTP 是 最 早 的 版 本 ， 其 描述 见 : 
D. J. Lipman, and W. R. Pearson, Science 227 (1985) 1435 - 1441. 
R-641 FASTA 是 FASTP 的 改进 版 本 ， 现 看 称 为 FASTA2 . 摘 述 见 : 
W. R. Pearson, and D. J. Lipman, "Improved tools for biological se- 
quence analysis" Proc. Natl Proc. Acad. USA 85 (1988) 2444 - 
2448. 
R-642 现行 3.0 版 FASTA , X 9& FASTA3 的 描述 可 以 参看 [R23] — B 10 
章 ， 另 外 还 可 以 参考 W.R. Pearson 本 人 的 讲义 [R-836] 。 FASTA2 
的 某 些 程序 尚未 在 FASTA3 中 实现 ， 两 者 的 源 程 序 者 是 公开 的 。 下 
载 网 址 是 : 
ftp://ftp.verginia.edu (/pub/fasta/) 
使 用 FASTA 服务 的 作者 ， 均 请 引用 (R-641) Bryu xci. 
许多 生物 信息 中 心 提供 FASTA 数据 库 搜索 服务 、 上 用 户 只 党 提 父 序 
列 ， 即 可 获得 结果 .对 于 比较 长 的 序列 ， 即 使 通过 网 页 上 载 ， 也 只 能 州 电 
子 邮 件 收 取 结 果 。 如果 想 要 把 FASTA 下 载 到 本 地 计算 机 上 运行 ， 可 访问 
网 址 [R-642] . 
运行 FASTA 的 WWW 网 页 服务 器 和 电子 邮件 服务 器 很 多 ， 例 如 : 
R-643 部 分 运行 FASTA 的 WWW 服务 器 和 电子 邮件 服务 器 的 URL : 
http://www.ebi.ac.uk/ 
mailto: fastaQebi.ac.uk 
http://www.fasta.genome.ad.jp/ (H Æ GenomeNet) 
http://rtcmain.rtc.riken.go.jp/fasta/ (日 本 理化 所 ) 
http://wwwu.rtc.riken.go.jp/pdb/index.html 
(日 本 理化 研究 所 ， 运 行 fasta3 ， 只 搜索 PDB H) 
- http://www2.ebi.ac.uk/fasta3/ 


http://iubio.bio.indiana.edu/search/fasta 


我 们 仍 以 电子 邮件 服务 为 例 ,介绍 一 下 如 何 用 FASTA3 搜索 数据 库 . 
là BLAST 一 样 ， FASTA 也 有 几 种 工作 方式 ， 表 5.7 列举 其 新 版 3.0 所 
包含 的 程序 即 工作 方式 . 
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* 5.7 FASTA 程序 的 几 种 工作 方式 


BIO AGNI 搜寻 的 数据 床 。 
fasta3 DNA DNA 

后 白质 Ei 
ssearch3 DNA DNA 

ÉK KK 


fastx3 DNA 6 "T iRfiE, feipdtesrelikig ei 蛋白 质 
fasty3 DNA 6 个 读 框 ， 人 允许 密 友子 内 读 框 错位 KAM 


tfastx3 FAM DNA 的 6 ^ iki 
tfasty3 WOM DNA 的 6 个 读 框 
fasts3 Misi Ekt EKAM 
fasif3 REFE KAR 


tfastf3 — NM E BAIT Pj DNA Mit Sr 9) 


各 个 生物 信息 中 心 的 FASTA 服务 的 差别 , 主要 在 于 所 搜索 的 数据 库 
Sb. 例如， 欧洲 生物 信息 研究 所 EBI 的 FASTA 服务 ， 可 以 搜索 表 5.8 
中 列举 的 数据 库 . 

FASTA3.0 版 设置 了 大 量 补 缺 参 数 ， 见 表 5.9 . 用 户 甚至 无 顷 指 定 程 
FERF. FASTA 服务 器 根据 所 握 交 序列 中 的 字母 类 型 判断 是 DNA. 或 蛋 
和 白质， 大 小 写字 和 母 可 以 混用 ， 

仍然 使 用 前 面 讲 BLAST 时 的 例子 .这 封 电 子 邮 件 完 全 使 用 服务 器 
设 思 的 补缺 参数 ， 因 此 颇 箱 短 : 

From: haoCítp.ac.cn 
To: fastaBebi.ac.uk 
Subject: 

SEQ 
£'*tccaataagactanaa 
END 


FASTA 服务 器 自动 选择 fasta3 t 程序 搜索 EMALL 库 ， 实 际 上 比较 
T 23 个 核酸 数据 库 中 的 5 655 840 个 序列 ， 总 计 5903 562019 TRE. 
由 于 提交 的 序列 很 短 ， 参 数 WORD( 即 ktup)=1 . 返回 的 结果 中 ， 18 个 
字母 10096 严格 匹配 的 序列 ， 除 了 来 自 P. abyssi 和 P. horikoshii ， 还 增 
加 了 一 个 P. furiosus, — BER MER GRO 48889. xx 8E OS ns TRACES 
猜测 ， 即 18 CFRE RIEA gttccaataagactaaaa 1 L fF i% iR 
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$ 5.8 EBI th FASTA 程序 可 以 搜索 的 数据 库 


数据 库 说 明 
来 自 PDB 和 SWISS-PROT W ERK 
AICA, PIR 8i GenBank &iiif 
RA SWISS-PROT dtm 9p n 


上 述 库 后 最 近 虽 新 的 序列 
A EMBL Bii it IFES 
TREMBL ^8) & Si 5] 
EMBL 核酸 数据 库 
EMBL 真菌 

EMBL x:ff Ht zb 15 
EMBL 人 类 

EMBL 96 3L 2515 

EMBL phi: 

EMBL rý si (4 

EMBL A% 

EMBL /A f 15 

EMBL af pi ath 

EMBL 序列 标记 

EMBL 合成 序列 

EMBL A4 Xy 5j 
EMBL 55i 

EMBL TF 5h t5 

EMBL 已 表达 的 序列 标记 
EMBL 基因 组 总 结 华 列 
EMBL 高 产 出 基 风 组 序列 
EMBL Ayr se gi dry dj 
EMBL + EMBLNEW 
S 08 it MEI 

由 EMBL 5B 89 IEA 


t95 
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$5.9 FASTA 程序 的 参数 


参数 Ha TAI api ifi RI zi 
HELP 取 使 用 说 明 
PATH 返 四 结果 的 另外 地 址 
TITLE 作业 标题 
PROGRAM fasta3 表 5.7 中 列 出 的 程序 
LIB EMALL 成 SWALL 4& 5.8 中 列 出 的 数据 库 
MATRIX  BLOSUMeé2 PAM250 
WORD(ktup) 2 S BEC LUKE Bj 
6 对 DNA 序列 
ALIGN 25 
LIST 50 
STRAND both,top.bottom(!L4t DNA) 
HISTOGRAM NO YES 
SEQ 不 能 缺 省 
END Ao 


的 标记. 

我 们 注意 到 ，EBI 的 FASTA 服务 器 搜索 的 核验 序列 总 数 ， 比 NCBI 
的 BLAST 多 10 倍 ， 碱 基 总 数 多 4 (5. mi HB RISK BLAST 没有 找 
到 的 结果 。 这 也 印证 了 前 面 所 说 ， 对 于 DNA 序列 FASTA {kii di fi M, 
谭 且 搜索 数据 库 时 最 好 儿 种 服务 器 多 管 齐 下 ， 比 较 结 果 . 

这 个 例子 还 可 以 说 明 序 列 比 较 问 题 的 特点 ， 即 演示 一 个 已 知 结果 是 
不 难 的 。 但 要 从 长 度 为 100 万 字母 的 细菌 基因 组 中 把 可 能 作为 杯 记 的 寡 

核 苷 酸 序列 找 出 来 ， 就 不 是 发 两 封 电子 邮件 能 做 到 的 . 

FASTA3 还 包含 儿 个 不 能 在 电子 邮件 中 调用 的 程序 ， 他 们 都 涉 太 对 

联 配 结果 的 统计 评估 .这 里 只 作 扼 要 介绍 ; 

R-644 PRSS3 程序 对 两 个 异 魏 质 或 DNA 序列 的 联 配 结果 进 箱 统计 评 
居 ， 办 法 是 不 断 把 第 二 个 序列 随机 地 打 筷 ， 册 Smith-Wateriuan. $E 
法 求 相 似 分 数 ， 然 后 估计 极 值 (extremee value) 分 布 (也 叫 Gumbel 
分 布 ) 的 参数 .此 法 只 适用 于 两 个 序列 的 启 域 联 配 。 乏 体 联 配 或 多 序 
列 联 配 的 统计 分 布 性 质 尚 不 清楚 。 请 参看 : 

S. F. Altschul, M. S. Boguski, W. Gush, and J. C. Wootton, Nature 
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Genetics 6 (1994) 119 - 129. 
R.645 sc to e 程序 根据 序列 长 度 、 数据 库 长 度 . MAESA, wR 
RA R e EEKE. 
R 646 randseq FEY PE -- AKIE FAL Ar 4653 PE SE 05 FF PIAA IE D bi BUF 
Jy. 随机 序列 上 要 用 于 对 数据 库 搜 索 结 果 的 统计 评估 . 
同和 使 提 - -下 ， 类 内 检 树 岭 内 家 实验 室 的 GenQuest [R-652] 服务 器 也 
允许 选择 FASTA Ry. 


5.3.3 5 BLAST 和 FASTA 有 关 的 后 处 理 程 序 


BLAST 和 FASTA 的 输出 ， 者 是 普通 的 纯 文 本 文件 .有 一 些 程序 可 
Apuxstág ifs RBPM, EE RILE. 

R 647 Blixem 是 BLAST 输出 的 视 象 化 程序 ， 它 要 求 先 调用 MSPcrunch 
[R 648] FOIE RE BC E LEE RE. 描述 见 ; 
E. L. L. Sonnheimnier, and R. Durbin, CABIOS (Bioinformatics) 10 
(1994) 301 307. 
Blixem 的 安装 见 ， 
http://www.cgr.ki.se/cgr/groups/sonnhammer/Blixem.html 

R 618 MSPcrunch 是 BLAST 输出 送 秆 Blixem [R-647] 显示 之 前 的 过 波 
"6E, ufJAA NCBI W ftp FEIER FAR. (HiX UL. 
http://www.cgr.ki.se/groups/sonnhammer/MSPcrunch.htmli 

R 649 Visual BLAST 和 Visual FASTA , jx it P. Durand 等 为 分 析 
BLAST 和 FASTA 和 给 出 的 蛋白 质 序列 联 配 结果 而 编写 的 视 象 化 程 
Hu MORES. 
P. Durand, L. Conard, and J. P. Mormon, CABIOS (Bioinformatics) 
13 (1997) 407 413. 
此 在 序 只 在 PC 视窗 系统 (95/98/NT) 下 运行 . 程序 可 免费 从 以 下 网 
hl. 下载 ， 
http ://www.lmcp.jussieu.fr/^ durand/ 
Watter LMCP At Laboratoire de Mineralogie-Cristallographie de 
Paris ， 即 巴黎 和 矿物 品 体 研究 室 的 缩写 。 这 套 程序 的 新 版 请 参看 [R- 
650] 。 
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R-650 Octopus 是 Visual BLAST 和 Visual FASTA 程序 新 版 合并 后 的 判 
4. 适用 于 PC 视窗 系统 (95/98/NT) ,必须 联网 使 用 . 它 包 括 显 水 、 
BEUKER. 多 序列 编辑 等 部 分 . dE 1518] P. Durand 提出 请 米 : 


mailto: 


durandOlmcp.jussieu.fr 


5.3.4 BLITZ 服务 


R-651 BLITZ ， 欧 洲 生物 信息 研究 所 EBI [R 131] EMIRS E. CIE 
用 Smith-Waterman [R-623] & ik, WH We a aS H9) ix x) SWISS- 
PROT [R-401] 和 TrEMBL (R.-402] 绰 介 质 序 列 数 据 库 去 搜索 比较 。 
这 是 一 套 灵 敏 亨 且 速度 很 快 的 程序 。 电子 邮 件 地 址 : 


mailto: 


blitzOebi.ac.uk 


髓 电子 邮件 提交 序列 给 BLITZ 服务 器 的 方法 ， 同 FASTA 很 相像 . 
电子 邮件 主体 中 ， 每 个 参数 占 一 行 . 除了 SEQ 及 其 后 的 序列 之 外 ， 其 他 
参数 都 可 以 省 略 ， 出 服务 器 宥 动 使 出 补缺 箱 、 表 5.10 pA r E93: S 
以 及 它们 的 补缺 值 和 可 选 值 . 


表 5.10 BLITZ 程 库 的 参数 


fun 
HELP 
DATABASE 


PAM 
BLOSUM 
GAPCOST 
GAPXCOST 
ALIGN 
NAMES 
'rITLE 

SEQ 


END 


kakpi 


SWALI. 


100 
62 


50 
aT fiel X 
X 


取得 HELP 文件 


sif 3& ffi eX i 8] 


SWISSPROT, SWNEW, 
TREMBLNEW ， SPTR 
150. 200, 250 

AR ihis, [HS] PAM 
"eS a: 5-20 
SEKH b: 0.05-2.0 
MA AE (ERKAC TR. At E 100 
[LE CE OLI d 

本 次 作业 标题 、 本 全 中 多 


yk co. ABFA RA, nr 


dies X deter 
noe 


TREMBL 
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5.3.5 GenQuest 服务 


GenQuest ££ X IH rg H uz [3] 2C 3E bz 78 D BE fI S ra (53 c M Py ERIS 
调用 GenQuest 的 方法 有 由 种 : 使 用 电子 依 ; 通过 与 GRAIL Mte fi p ur, 
见 [R-719] ， 通 过 基 下 X [R-52] 的 ~… 个 在 本 地 计算 机 上 运行 的 服务 器 界 
而 ;或 从 XGRAIL IR 719] 程序 中 调用 .这 里 只 介绍 册子 邮件 服务 。 

R-652 GenQuest IE T m fEJE 25: 

mailto:  QQGornl.gov 

GenQuest. J£ HEP t He zx HH) 一 个 DNA I$ 9 st FLIR A po] rcu dS 
HPI E Sb HS FUE IU SZ. 它 人 允许 用 户 选 择 BLAST, FASTA 、 Smith- 
Waterman(SW) 等 多 种 算法 ， 以 SW 为 补缺 从 .樟树 岭 实 蛤 宝 准 备 今后 
把 其 他 行 之 有 效 的 搜索 方法 继续 集成 到 这 个 服务 器 中 。GenQuest ilc fh 
Frag m E51. 


X 5.11 GenQuest 电子 邮件 的 拓 数 


SE aA 可 选 信和 和 说明 

TYPE — 44 ——— ^ PROTEIN, DNA, DNAG 

SEQ "EE yeh cds. FIBI UNA 

END 可 有 有 可 无 主旨 结束 标志 

FILTER — 4j HE ERDF PEG i id 

MATRIX — BLOSUM62 BLOSUMSO , PAMIQOXIO x n 

HORE PRE 

METHOD SW FASTA, BLAST, FLASIIE 

ALIGN 10 公用 二 METHOD i SW M 

SCORE 10 ft METHOD iX SW 时 

TARGET GSDB(tJ DNA) DBEST. REPITIFIVE 
SWISSPROT(IU d 12) PDB.PROSITE,PIR,BLOCKS 

COMMENT Jfr if x: Hke. duis 


HELP 取得 HELP Xft 


200 PIE KE, CnIÉRGWOE 


85.4 ”多 序列 联 配 程序 


动态 规划 方法 原则 上 可 以 推广 到 多 序列 联 配 ， 但 对 计算 机 的 处 好 能 
力 要 求 其 高 。 如 果 只 要 联 配 少数 几 个 不 很 长 的 序列 、 可 以 把 这 些 序列 通过 
网 页 提交 到 以 下 服务 掩 : 

R-653 BCM 服务 器 ， 即 Baylor College of Medicine 所 提供 的 BCM Search 

Launcher 服务 网址: 

http://dot.imgen.bcm.tmc.edu:9331/ 

multi-align/multi-align.html 
R-654 Hid: ETH 服务 器 ， 

http://cbrg.inf.ethz.ch/MultiAlign.html 

S IL ff E y yggeno PUT, EH ZP RNE” (progressive align- 
ment), Hifjf)2E, bf ox UE Bk Be uc Fe Spe fe p xr, ede vo 1 n ug D gn 
AHWA [R-671] 形成 学 引 树 (guide tree), PEE "IUE? Nili A e 
部 序列 的 联 虹 .还 可 以 用 育 举 法 [R-676] 对 联 配 结果 作 统 计 评 佑 ，11 前 
使 用 得 最 广泛 的 免费 逐 贞 联 配 程序 ， 是 里 年 中 D. G. Higgins JF rds i (1) 
Clustal 系列 程序 ;: 

R-655 D. G. Higgins, and P. M. Sharp. Gene 73 (1988) 237 244. 

Clustal 程序 接受 多 种 输入 格式 ， 包 括 FASTA, EMBL, SWISS- 
PROT, PIR 和 GCG/MSF 等 ， 但 所 有 输入 序列 必须 在 同一 个 六 件 中 。 
An R$ AT PUB dE RE TEC 85% EL LEA. C, G., T, U, N(OXAS 
Tg), NUOBIEOAUELNETE SU, BRAE A REAREA, Rr Y ROLE 
RIFIAA SI Hé fE-- D fF. Clustal 的 输出 文件 也 有 多 种 格式 供 选 择 。 

R-656 ClustalW 多 序列 联 配 程序 合用 纯 多 本 对 证 控制 输入 、 输 出 和 参数 
选择 。 ClustalW 的 描述 见 : 

J. D. Thompson. T. J. Gibson, and D. Higgins. Nucleic Acids Res. 22 

(1994) 4673 - 4680. 

ClustalW 有 适用 天 多 种 平台 的 源 程序 和 可 执 征 文件 ， 可 从 以 下 网址 

下 载 : 

http://www.ebi.ac.uk/dos/clustalw/ 

http://iubio.bio.indiana.edu/align/clustal/ 
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ftp://ftp.ebi.ac.uk (/pub/software/) 
ftp://ftp-igbmc.u-strassbg.fr (/pub/Clustal/) 

R-657 ClustalX Æ ClustalW[R-656] 多 序列 联 配 程序 的 UNIX 版 本 , 它 使 
用 藉 鹤 口 图 形 界 面 ， 图 形 显示 在 一 个 单独 窗口 中 ， 备 有 选择 菜单 . 
程序 描述 见 : 

J. D. Thompson, T. J. Gibson, F. Plewiak, F. Jeanmongin, and D. G. 
Higgins, Nucleic Acids Res. 25 (1997) 4876 — 4882 

下 载 网 址 : 

ftp://ftp.ebi.ac.uk (/pub/software/) 
ftp://ftp-igbmc.u-strassbg.fr (/pub/ClustalX) 


Clustal 程序 没有 对 多 序列 联 配 文件 进行 编辑 加 工 的 功能 .当然 可 以 
使 用 普通 的 编辑 程序 作 这 件 事 ， 人 得 不 如 调用 专门 的 多 序列 联 配 编辑 程序 
方便 ， 例 如 : 

R-658 SeaView 多 序列 联 配 编辑 程序 ， 增 述 遇 : 

N. Galtier, M. Gouy, and C. Gautier, CABIOS (Bioinformatics) 12 
(1996) 543 — 548. 

Ie) hr: 

ftp://biom3.univ-lyoni.fr (/pub/mol.phylogeny/) 

R-659 BOXSHADE 程序 ， 把 多 个 蛋白 质 序列 联 配 结果 用 阴影 或 颜色 即 
工 成 适 于 发 表 的 形式 ， 获 取 有 关 信 息 的 网 址 是 ; 
http://www.isrec.isb-sib.ch/software/BOX form.html 
也 可 向 以 下 网 页 提交 序列 ， 进 行 如 工 : 
http://www.ch.embnet.org/software/BOX form.html 

R-660 CINEMA ， 交 豆 式 的 彩色 多 序列 编辑 程序 。 寺 址 ; 
http://www.bioinf.man.ac.uk/dbbrowser/ 

CINEMA2.1/cinema2hdr.html 

R-661 AMAS 多 序列 分 析 程 序 包 . 它 不 能 直接 读 取 Clustal 格式 , (Hf 
PIR 格式 的 输入 文件 。 描 述 见 : 

C. D. Livingstone, and G. J. Barton. CABIOS (Bioinformatics) 9 
(1993) 745 - 756. 
Hahk: 


http://barton.ebi.ac.uk/servers/amas-server.html 
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R-662 belvu , 是 由 KISAC [R-145] 的 Eric Sonnhammer 编写 的 -个 多 序 
列 联 配 的 显 未 程序， 适用 于 UNIX E6, € AFH GERE mo 
酸 的 颜色 ， 但 不 是 一 个 功能 齐全 的 序列 编辑 程序 . 详 见 : 
http://www.cgr.ki.se/cgr/groups/sonnhammer/Belvu.html 
可 由 以 下 网 址 获取 : 
ftp://ftp.cgr.ki.se (/pub/prog/SFS/) 
R-663 LalnView 程序 显示 序列 联 配 的 结果 。 描 述 见 : 
L. Duret, E. Gasteiger. and G. Perriere. CABIOS ( Bioinformatics) 12 
(1996) 261 - 282. 
网 址 : 
ftp://ftp.expasy.ch (/pub/lalnview/) 
顺便 指出 ， SeqPup[R-714] HFF di £j £ FF SURE RC £5 R r0 SR 
工 的 功能 。 Clustai 程序 虽 人 有 构 建 亲缘 树 的 功能 ， 但 为 此 最 好 使 用 85.5 Y 
中 介绍 的 专用 程序 . 
与 逐步 联 配 不 同 的 另 - 种 策略 ， 是 先 联 配 序列 中 的 保守 片段 ， 然 后 
再 把 它们 组装 起 来 : 
R-664 Dialign 程序 ， 描 述 见 : 
B. Morgenstern, A. Dress, and T. Werner. Proc. Natl. Acad. Sci. USA 
93 (1996) 12098 -. 12103. 
KI hE: 
http://bibiserv.techfak.uni-bielefeld.de/dialign/ 


85.0 亲缘 树 的 计算 和 图 示 


演化 是 生物 学 的 基本 概念 ,许多 生物 学 的 事实 表明 ， 所 有 现在 物种 
来 自 同一 祖先 , 不 同 的 核 栈 或 蛋 和 白质 序列 可 能 源 于 同一 原始 序列 RAK 
系 近 近 的 判别 ， 曾 经 主要 基于 形态 学 的 观察 ， 因 侧 与 分 类 学 密切 机 关 。 订 
缘 关 系 研究 的 一 组 特定 对 象 ， 称 为 “操作 性 分 类 单元 ”OTU (Operational 
Taxonomic Units). OTU FIEREN., BEEFY KAATI Tik. 
物种 或 种 群 。 分子 生物 学 的 发 展 ， 把 亲缘 关系 的 研究 推进 到 分 子 水平 、 分 
子 演化 导致 的 亲缘 分 析 、 直 生物 信息 学 的 重要 篇 章 . 然而 ， 要 使 分 子 演 化 
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理论 有 比较 坚实 的 数学 基础 ， 还 必须 考察 其 基本 假设 . 
第 一 , 是 对 突变 的 认识 . 历史 上 占 优 势 的 是 达尔 文 以 来 的 选择 演化 观 
点 ， 闪 为 在 自然 选择 的 庄 力 下 ,除了 有 害 突变 ， 就 是 有 益 突 变 ， 中 性 的 、 
不 好 不 坏 的 突变 很 少 。 20 世纪 60 年 代 后 期 ， 木 村 (Motoo Kimura) 等 人 
提出 了 中 性 演化 观点 ， 兴 为 突变 是 与 选择 无 关 、 随 机 产生 的 , 除了 有 害 突 
变 ， 大 部 分 者 是 中 性 的 ， 有 益 突 变 很 少 . 中 性 演化 并 不 否认 选择 的 作用 ， 
面 是 认为 在 长 期 自然 选择 的 基础 上 ， 各 个 历史 时 期 的 物种 都 已 接近 当时 
条 件 下 最 优 的 水 平 ,发生 继续 优化 的 有 益 突变 的 可 能 性 甚 微 . 选择 演化 观 
点 很 难 严格 表述 , 而 中 性 演化 理论 却 可 以 有 较 好 的 数学 基础 . 两 种 上 砚 点 引 
起 激烈 、 持 久 的 争论， 中 性 演化 逐步 赢得 较 多 支持 . 中 性 演化 观点 的 早期 
文章 见 : 
R-665 M. Kimura, “Evolutionary rate at the molecular level", Nature 217 
(1968) 624 — 626. 
R-666 J. L. King, and T. H. Jukes, *Non-Darwinian evolution: random 
fixation of selectively neutral mutations", Science 164 (1969) 788 
798. 


B., fF VRRIR. BRR P 81 RA E a E A AF p fp T 3€ 
HEBBELiu iE BUREAU SEE. 这 个 假设 从 整体 上 说 是 不 成 立 的 .核酸 序 
列 中 非 编 码 部 分 比 编码 部 分 突变 速率 高 ， 内 含 子 比 外 显 子 突 变速 率 高 。 
然而 ， 如 果 选 择 特定 的 某 种 基因 序列 ， 突 变速 率 则 近似 保持 恒定 . -- 般 说 
来 ， 蛋 白质 序列 中 的 突变 速率 更 为 接近 往 定 . 人 人 和 们 对 分 子 钟 假设 作 过 各 种 
检验 ， 但 争论 仍 在 继续 ， 

第 三 ， 是 具体 代表 一 个 OTU 的 “矢量 ”的 长 度 不 能 太 短 ， 否 则 容纳 
不 了 演化 的 访 史 过 程 ， 或 者 说 ， 变 异 的 积累 达到 “ 愧 和 ”. 在 下 一 小 节 介 
绍 过 距离 概念 之 后 , 我 们 再 继续 讨论 这 一 点 。 这 里 先 开 列 三 本 关于 分 子 演 
化 的 较 新 参考 书 : 

R-667 Wen-Hsiung Li, Molecular Evolution, Sinauer Associate, Inc., 1997, 

xv 十 487. 

R-668 Roderic D. M. Page and Edward C. Holmes, Molecular Evolution: A 

Phylogenetic Approach, Blackwell, 1998, 1999, v 十 346. 

及 -669 Wen-Hsiung Li, and Dan Graur, Fundamentals of Molecular Evolu- 
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tion, Sinauer Associate, Inc., 1991, 1999. 
后 两 本 书 比较 简明 易 读 , 而 第 一 本 对 分 子 演 化 理论 的 基础 计 论 较 深 . 


5.5.1 距离 和 相 异 性 


把 一 批 同类 对 象 (OTU) ARARE (clustering) ， 是 分 类 
学 (taxonomy) 的 基本 要 求 ， 分 类 的 关键 首先 在 于 确定 一 种 或 多 种 比较 每 
个 OTU 用 的 性 状 . 例如 ， 对 人 群 做 身体 检查 ,每 人 测 10 个 指标 。 如果， 
对 每 项 指标 只 问 是 “ 央 手 ” (0) 或 “阳性 ” (1) ， 那 每 人 的 检查 结果 出 10 
个 0 或 1 组 成 的 一 个 矢量 代表 ， 人 与 人 之 间 的 差别 由 祷 应 矢量 之 间 的 距 
Bia. 距离 近 者 可 聚 成 -- 类 ， 距 离 远 者 差异 也 大 。 

定义 “距离 ”的 办 法 很 多 . 我 们 先 看 一 下 距离 应 具备 的 基本 性 质 ， 设 
有 4、 吕 和 C 三 个 DTU， 它们 之 间 的 距离 分 别 记 作 dA, B), d(B,C) 
和 d(4,C) 。 正 确 约 定义， 详 当 满足 以 下 三 条 要 求 (距离 公理 ) : 

第 一 ， 自 己 到 自己 的 距离 为 0: d(A,4)-0. 

第 二 ， 从 4 到 B 的 距离 等 于 从 B 到 A 的 距离 。 d(A,B) =: d(B, A) 
(对 称 性 ) . 

第 三 ， 任 意 两 个 距离 之 和 应 当 等 于 或 大 于 第 三 个 距离 . 这 很 容易 想 
象 成 一 个 三 角形 三 个 边 的 关系 ， 因 此 又 称 为 三 角形 不 等 式 。 

距离 代表 相 异 性 ， 但 习惯 上 用 来 表示 相 蜡 性 的 量 ， 不 一 定 满足 上 述 
公理 . 使 用 满足 距离 公理 的 定义 ， 数 学 上 有 一 些 好 处 . DXL, ARAH 
出 发 可 以 定义 物种 之 间 的 距离 . 这 些 距离 不 仅 满足 上 述 公 理 , 而 且 满 足 更 
强 的 “ 超 测 度 ” (ultrametricity) 条 件 (“测度 ”是 和 距离 差不多 的 数学 概 
Z, 读者 可 以 不 问 细节 ) ， 超 测度 与 中 性 演 北 和 分 子 钟 很 定 有 密切 关系 。 
我 们 稍 作 介绍 . 

没有 一 株 层 次 清楚 的 亲缘 树 。 所 有 现存 物种 处 于 同一 最 底层 ， 和 作 上 
追 潮 到 各 代 祖 先 ， 把 两 个 现存 物种 到 达 共 同 穴 先 的 “ 代 * XX, og XS MO 
之 间 的 距离 . TESH, 竺 意 三 个 物种 之 间 的 距离 ， 必 在 两 个 距离 相等 ， 
且 等 于 或 大 于 第 三 个 距离 . 或 者 说 ， 上 面 三 角形 不 等 式 中 的 三 角形 ， 只 能 
是 等 腰 或 等 边 三 角形 - 这 就 是 超 测度 .。 超 测度 满足 距离 公理 ,只 足 三 角形 
不 等 式 的 表现 形式 喝 具 体 , 


85.5 X db mir E 205 


BIF 20 世纪 50 年 代 ， 分 类 学 者 就 提出 过 一 种 系统 的 聚 类 方法 ， 把 
两 个 小 案 类 成 员 间 的 最 小 距离 取 为 聚 类 之 间 的 距离 。 这 样 可 以 由 下 而 上 
地 构造 出 唯一 的 亲缘 树 . 相应 的 约 化 后 的 距离 比 原 始 距离 小 ,而 且 满足 起 
测度 条 件 . 还 可 以 取 两 个 小 聚 类 成 员 间 的 最 大 距离 为 聚 类 之 间 的 距离 ， 
这 样 得 到 的 亲缘 树 虽 不 唯 --, 约 化 距离 也 比 原始 距离 大 , 但 仍 满足 趟 测度 

在 中 性 演化 背 展 下 ， 以 及 分 子 钟 假定 即 突 变速 率 忆 定 条 件 下 ， 且 代 
表 每 个 OTU 的 矢量 的 分 量 数 目 趋向 无 究 多 ， 则 各 个 OTU 之 间 的 距离 趋 
向 赵 测 度 . 来 自 实际 生物 序列 的 距离 处 阵 ， 不 会 满足 超 测度 条 件 , 但 可 以 
把 它 与 超 测 度 的 差别 ， 作 为 对 分 子 钟 假设 的 一 种 检验 . 

超 测 度 的 概念 虽然 有 些 抽象 ， 但 它 为 亲缘 树 的 构建 提供 了 一 个 理论 
上 严格 的 框架 . 下 面 这 篇 关于 超 测度 的 综述 文章 ， 虽 是 写 给 物理 学 者 的 ， 
但 它 有 很 长 一 节 专 门 讨论 生物 分 类 和 亲缘 树 . 特别 对 于 历史 发 展 ， 有 简要 
描述 ， 值 得 一 读 . 
R-670 R. Rammal, G. Toulouse, and M. Virasoro, “Ultrametricity for physi- 

cists", Reviews f. Modern Phys. 58 (1986) 765 - 788. 


5.5.2 ”亲缘 树 算法 简介 


常用 的 亲缘 树 算法 有 了 两 大 类 。 一 类 是 简单 的 泰 类 方法 ， 另 一 类 是 体 
现 某 种 优化 要 求 的 方法 .后 者 往往 属于 NP 完备 问题 ,因而 不 得 不 寻求 近 
似 解 法 . 我 们 只 简要 地 提 及 一 些 方法 的 名 字 , 而 不 叙述 计算 公式 和 理论 背 
X. 
聚 类 方法 中 常见 的 是 NJ 和 UPGMA 法 . 它们 常用 来 迅速 构建 亲缘 
关系 ， 然 后 再 靠 其 他 方法 改进 . 
R-671 NJ 是 邻接 (Neighbour Joining) 方法 的 缩写 ， 它 可 以 很 快 地 导致 单 
一 的 亲缘 树 。 最初 描述 见 : 
N. Saito, and M. Nei, “The neighbor joining method: a new method 
for reconstructing phylogenetic trees", Mol. Biol. Evol. 4 (1987) 406 
- 425. 
R-672 UPGMA 是 使 用 算术 平均 的 不 加 权 的 成 对 分 组 方法 (Unweighted 
Pair Group Method with Arithmetic Means) . 用 此 法 构建 的 亲缘 树 
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满足 超 测 度 关 系 .。 
对 亲缘 树 与 原始 数据 的 拟 合 提出 一 定 优化 要 求 的 方法 ， 昌 前 使 用 得 
比较 普遍 .常见 的 和 名目 有 : 
R-673 最 大 简约 法 (Maximal Parsimony ， 简 称 MP), 
R-674 最 短 演 化 长 度 法 (Minimal Evolution ， 简 称 ME). 
R-675 最 大 似 然 法 (Maximal Likelihood ， 简 称 ML}. 
无 论 用 何 种 方法 构建 的 亲缘 树 ， 都 有 一 个 对 其 统计 置信 和 度 进 行 评 估 
的 问题 。 这 里 最 常用 的 是 : 
R-676 自 举 法 (bootstrap) ， 即 对 代表 OUT 的 矢量 用 某 种 方式 随机 取样 ， 
多 次 重复 构建 亲缘 树 并 观察 所 得 结果 稳定 性 的 一 套 办 法 


5.5.3 ”亲缘 树 计算 软件 


R-677 PHYLIP 程序 包 . 华盛顿 大 学 Joe Felsenstein 编号 的 这 套 PHY- 
Logeny inference Package ， 是 最 常用 的 免费 亲 绿 树 计算 软件 ， 册 人 
约 30 个 程序 组 成 。 它 已 有 15 年 以 上 上 历史， 最初 措 述 见 : 

J. Felsenstein, Evolution 39 (1985) 783 - 791. 

PHYLIP 程序 包 1999 年 10 月 发 行 第 3.5 版 . 程序 各 使 用 说 明 书 可 一 
起 下 载 ， 

http://evolution.genetics .Washington.edu/ 
ftp://evolution.genetics.washington.edu/ 

文件 phylip.ter.Z 包含 C 源 程 序 和 说 明 书 ， 而 phylip.exe 是 适用 
于 DOS 的 自动 解压 安装 的 程序 . 

R-678 PAUP 是 简约 法 亲缘 分 析 (Phylogeny Analysis Using Parsimony) 
的 缩写 . 它 上 前 已 是 GCG (R-792] 商业 软件 包 的 一 部 分 . 

R-679 Phylo Win 是 在 UNIX 平台 上 运行 的 一 套 免 费 亲 缘 树 计算 程序 . 
它 的 描述 和 网 址 均 请 参看 SeaView[R-658] 的 说 明 . 

R-680 NJBafd 程序 从 DNA 中 微 卫 星 序列 位 点 频 度 或 其 他 遗传 标记 出 
发 ， 用 邻接 法 或 UPGMA 法 构建 亲缘 树 。 网 址 : 
ftp://iubio.bio.indiana,edu (/soft/molbio/evolve/njbafd) 

R-681 NJPlot 是 根据 文件 绘制 亲缘 树 的 程序 .文件 中 对 树 的 描述 采用 括 
FREEK. PHYLIP 程序 就 可 以 输出 这 样 的 文件 。 NJPlot 也 可 
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以 输出 PostScript AEX. PIHE: 
ftp://biom3.univ-lyoni.fr (/pub/mol.phylogeny/njplot) 

R -682 TreeView 是 Rod Page 编写 的 亲缘 树 显示 程序 . 网 址 : 
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html 

R-683 Phylodendron, jJ D. Gilbert 编写 的 专门 绘制 亲缘 树 的 程序 ， 它 
可 以 避免 树枝 交叉 等 不 大 雅 观 的 输出 . FREE: 
http://iubio.bio.indiana.edu/java/apps/trees/ 

R-684 PAME. 由 杨 子 但 编写 的 最 大 似 然 法 亲缘 分 析 (Phyiogenetic Anal- 
ysis by Maximal Liklihood) 程序 ， 可 以 由 核酸 或 蛋白 质 序 列 出 发 ， 进 
行 模型 拟 合 或 亲缘 树 的 构建 。 网 址 : 
http://iubio.bio.indiana.edu/evolve/paml 
ftp://abacus.gene.ucl.ac.uk (/pub/paml) 

R-685 Phyltest, S. Kumar 编写 的 亲缘 假设 检验 程序 ， 它 可 以 比较 三 种 
亲缘 树 ， 估 计 每 对 物种 的 平均 距离 等 。 下 载 网 址 : 
http://iubio.bio.indiana.edu/ibmpc/phyltest 

R-686 malign ， 多 序列 联 配 和 亲缘 树 计 算 的 服务 器 。 设 在 日 本 的 DDBJ 
[R-213], ， 可 用 电子 邮件 提交 序列 ， 参 数 见 表 5.12 。 电子 邮件 中 每 个 
参数 占 一 行 . 其 算法 见 : 

J. J. Hein, Methods Enzymol. 183 (1990) 626 — 645. (9, {R -26]) 
网 址 : 
mailto: malign@nig.ac.jp 


X 5.12 malign 程序 的 参数 
参数 补缺 值 王选 值 和 说 明 


amces 每 个 节点 印 - -条 祖先 序列 
gapa 8 空谷 说 分 

gapb 3 EDITI 

moltype DNA protein 

tree Epi rtt 3 RC 


begin ”必需 独 点 -ip RMATA FASTA H RIEA 


互联 网 上 还 有 一 些 分 类 学 和 亲缘 关系 的 软件 目录 ， 可 以 参考 : 
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R-687 英国 Glasgow 大 学 的 分 类 学 软件 目录 : 
http://taxanomy.zoology.gla.ac.uk/software.html 

R-688 牛津 大 学 动物 学 系 Paul Harvey 研究 组 的 亲缘 关系 和 种 群 遗传 堂 软 
件 目录 : 
http://evolve.zps.ox.ac.uk/software.html 

R-689 Tree of Life, “ERZE” kj, -DERE ER 
http://phylogeny.arizona.edu/tree/programs/programs.html 


85.6 5 DNA 测序 和 基因 工程 有 关 的 软件 


用 于 DNA 序列 大 规模 测序 的 软件 包 ， 在 几 个 主要 的 国际 测序 中 心 
RE. 它们 都 是 相当 复杂 的 系统 ， 并且 带 有 详细 的 使 用 说 明 书 . 这 里 只 能 
点 名 简介 - 


R-690 Staden 程序 包 是 以 Rodger Staden 为 首 的 小 组 经 多 年 锤炼 改进 而 
成 的 . 它 主要 用 于 大 规模 DNA 序列 测序 , 但 其 中 一 些 程 序 可 单独 使 
FB. 其 最 新 的 2000.0 版 可 从 以 下 网 址 下 载 : 
http://www .mrc-imb.cam.ac.uk/pubseq/downloads.html 
ftp://ftp.mrc-lmb.cam.ac.uk 

/pub/staden/downloads/staden.O0S RELNUM.tar.gz 
文件 名 字 中 的 OS 是 所 需 UNIX 操作 系统 名 ， 如 solaris; RELNUM 
是 版 本 号 如 2000.0. 所 取得 的 程序 包 均 在 演示 模式 下 运行 .无 论 学 
术 性 或 商业 性 用 挛 ， 均 须 由 网 页 
http://www.mrc-lmb.cam.ac.uk/pubseq/licence.html 
得 到 使 用 许可 ， 才 能 全 功能 运行 . Staden 程序 包 有 长 达 500 页 的 使 
MRA H, WEL PostScript 文件 打印 ， 或 作为 HTML 文件 在 浏览 器 
中 国 读 . 使 用 说 明 书 的 网 址 是 : 
http://ww.mrc-limb.cam,.ac.uk/pubseq/ 

下 面 是 Staden 程序 包 中 的 几 个 主要 程序 : 

1. PREGAP 对 自动 测序 机 的 读数 结果 进行 预 处 理 . 

2. GAPA 对 测序 得 到 的 序列 片段 进行 拱 接 组 装 . 

3. SIP4 取代 了 原来 的 SIP 程序 . 这 个 序列 比较 和 联 配 程序 ， 基 
初 以 DIAGON 名 称 发 表 : 
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R. Staden, "An interactive graphics program for comparing and align- 
ing nucleic acid and amino acid sequences", Nucleic Acids Res. 10 
(1982) 2951 - 2961. 

4. NIP4 取代 了 原来 的 NIP 程序 . 这 个 寻找 读 框 和 基因 的 程序 ， 
最 初 发 表 时 的 名 字 是 ANALYSEQ 。 匈 : 
R. Staden, "Graphic methods to determine the function of nucleic acid 
sequences", Nucleic Acids Res. 12 (1984) 521 - 538. 


R-691 华盛顿 大 学 为 大 规模 DNA. 测序 发 展 了 一 整套 程序 系统 ， 它 的 主要 


模块 有 : 

1. Phred 测序 程序 、 它 实现 碱 基 识别 和 错误 率 估 算 . 

2. Phrap HHT, HHX Phred 提供 的 短片 段 ， 并 进行 质 
BE iT de. 

3. Consed 校对 程序 ， 结 合 人 工 校 对 。 
学 本 性 丹 户 原则 上 可 以 免费 使 用 这 套 程 序 , 但 事先 必须 与 发 展 Phrap 
系统 的 P. Green 实验 室 取 得 联系 ， 做 出 学 术 性 使 用 的 承诺 。 详细 情 
形 请 参看 网 址 : 
http://www .phrap.org/ 


R-692 CAP, CAP2 f CAP3, 是 黄 晓 秋 编写 的 相 邻 片段 组 装 程序 (Cou- 


tig Assembly Program) 。 它 能 和 够 灵敏 地 查找 片段 的 重复 部 分 ， 算 法 
和 程序 描述 见 : 

X. Huang, “An improved sequence assembly program". Genomics 33 
(1996) 21 - 31. 

这 个 用 C 语言 编写 的 命令 行程 序 ， 可 以 从 GAP4 [R-690] 、 SeqPup 
[R-714] 等 程序 中 调用 。 网址: 
http://genome.cs.mtu.edu/cap/cap3.html 

ftp://cs.mtu.edu (/pub/huang/) 

其 最 新 版 本 CAP3 的 文件 在 : 

http://genome.cs.mtu.edu/sas.html 

需要 此 程序 者 应 直接 与 黄 晓 秋 联系 : 

mailto: huangOmtu.edu 


R-693 Primer3 是 一 个 PCR 和 测序 所 需 引 物 的 设计 程序 . 详细 描述 见 [R 


23] 一 书 第 20 章 。 可 以 直接 从 WWW 网 页 享用 这 一 服务 .了 网址; 


210 #5% ES, KO SEX 


http://www.genome.wwi.mit.edu/cgi-bin/primer/info.cgi/ 
也 可 以 下 载 源 程序 自己 实现 : 
ftp://genome.vi.mit.edu (/pub/software/) 
R-694 PrimerDesign :引物 设 讶 程序， 网 址 : 
ftp://ftp.chemie.uni-marburg.de (/pub/PrimerDesign/) 
R-695 Primer-Master 引物 设计 程序 。 网址 : 
http://www.ebi.ac.uk/software/software.html 
ftp://ftp.ebi.ac.uk (/pub/softuare/) 


商业 性 的 GCG 程序 包 [R-792] 中 也 有 几 个 与 测序 拼装 有 关 的 程序 。 


$5.7 DNA 序列 分 析 程 序 


在 大 规模 铀 序 所 得 到 的 DNA 序列 中 判 认 基因 和 和 对 基因 表达 起 调控 
作用 的 各 种 蛋白 质 结合 位 点 ， 是 序列 分 析 的 核心 任务 。DNA 序列 的 高 产 
出 ， 使 得 计算 机 判 认 成 为 不 可 替代 的 手段 . 
原核 生物 DNA 中 葵 因 密度 较 高 ， 市 且 基 本 上 没有 内 含 子 ， 因 此 排 
除 掉 较 易 确 定 的 RNA 基因 和 简单 重复 序列 之 后 ， 较 长 的 开放 读 框 (Open 
Reading Frame ， 简 称 ORF) 通常 就 对 应 基因 。 FUÉ (BOSE SED TE VEU 
掉 。 为 此 可 使 用 各 种 马 可 夫 模型 加 以 补救 . 
关于 从 DNA 序列 中 识别 基因 的 方法 ， 可 以 参考 近 几 年 的 -- 些 综述 
LÄ: 
R-696 J. W. Fickett, “Finding genes by computer: the state of the art”, 
Trends Genet. 12 (1996) 316 — 320. 
R-697 J. M. Claverie, "Computational methods for the identification of 
genes in vertebrate genomic sequences", Hum. Mol Genet. 6 (1997) 
1735 - 1744. 
R-698 C. B. Burge, and S. Karlin, "Finding the genes in genomic DNA", 
Curr. Op. Struct. Biol. 8 (1998) 346 — 354. 


下 面 列举 一 批 DNA 序列 分 析 的 软件 和 服务 . 


R-699 ReadSeq 序列 格式 转换 程序 .Don Gibert 所 写 的 这 个 语言 程序 
可 从 印第安 那 大 学 取得 : 
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http://iubio.bio.indiana.edu/readseq/ 
它 的 缺点 是 不 能 处 理 包含 间 隙 符号 “- ”的 序列 ， 也 不 能 变换 太 长 的 
序列 。 怖 便 提 -~- 下 ,不 能 处 理 太 长 的 序列 是 多 数 老 程序 的 对 点 。 这 一 
方面 曾 受 FORTRAN 滞 疹 数据 结构 的 限制 ， 另 一 方面 也 因为 人 们 过 
去 主要 关心 同 单个 基 央 相对 应 的 序列 . 随 着 模式 生物 完全 基因 组 或 
整个 染色 钵 的 测序 ， 以 及 大 量 基因 同时 表达 的 研究 ,这 种 情形 正在 发 
生变 化 。 ReadSeq 的 说 出 文件 描述 了 它 能 够 转换 的 18 种 格式 . 

R-700 Artemis 是 Sanger 中 心 [R-299] 最 近 推 出 的 DNA 序列 显示 和 注释 
T.A. CH Java 语言 编写 ， 在 任何 支持 Java 的 平台 运行， 可 以 处 
理 任 意 长 度 的 序列 , 这 是 遵守 GNU [R-62] 协议 的 免费 软件 . kd hl: 
http://www.sanger.ac.uk/Software/Artemis/ 

R-701 GenScan fifi Kai5up XB, B gi dE A 7S fé Bt ir du S PCR) 
认 工 具 之 一 . 果 蝇 全 基因 组 [R-369] 的 注释 也 使 用 了 这 个 程序 ， 效果 
似 比 Genie [R-702] W Æ. RHEN: 
C. Burg, and S. Karlin, J. Mol. Biol. 268 (1997) 78 - 94. 
网 址 ; 
http://gnomic.stanford.edu/GENSCANW.html 

R-702 Genie 程序 基于 隐 乌 可 失 链 模型 . 最 近 对 果 蝇 全 基因 组 [R -369] 的 
注释 ， 其 效果 似 比 GenScan 程序 略 佳 .部 分 原因 可 能 在 于 Genie t3 
好 是 用 果 蝇 数据 训练 的 。 算 法 描述 见 : 
D. Kulp, D. Haussler. M. G. Reese, and F. H. Eeckman, “A generalized 
hidden Markov model for the recognition of human genes in DNA”, in 
Proceedings of ISMB96. ed. by D. States, P. Agarwal, T. Gaasterland, 
L. Hunter, and R. F. Smith, AAAI Press, 1996. 见 [R--826] 
PJ hE: 
http://www-hgc.lbl.gov/inf/genie.html 

R-703 GeneLang 是 一 个 某 于 基因 语法 规则 的 模式 识别 程序 . Büxb HL. 
S. Dong, and D. B. Searls, “Gene structure prediction by linguistic 
miethods", Genomics 23 (1994) 540 - 551. 
网 址 : 
http://cbil.humgen.upenn.edu/^sdong/genlang.html 
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R-704 ECOPARSE IT. 6 FR ER aT X ek RU S AAAH DNA 中 的 
XP. WRIE AGE. 
A. Krogh, I. S. Mian, and D. Haussler, “A hidden Markov model that 
finds genes in E. coli DNA", Nucleic Acids Res. 22 (1994) 4768 - 4778. 
网 址 : 
http://genome.cbs.dtu.dk/krogh/EcoParse.info 

R-705 VEIL HEF (EA —HEER S ap KRE RKE ACE. PRAE T. w E i 
区 . 域 等 各 种 不 同 的 序列 片段 ， 然 后 借助 动态 规划 的 Viterbi 算法 来 分 
析 询 问 序列 ， 以 确定 编码 区 ， 因此、 英文 名 字 是 Viterbi Exon-Intron 
Locator, MER YEIL 4üxb Uu. 
J. Henderson, A. Delcher, S. Kasif and K. Fasman, “Finding genes in 
human DNA with a hidden Markov model", J. Comp. Biol. 4 (1997) 
127 - 141. 
网 址 : 
http://www.cs.jhu.edu/labs/compbio/veil.html 

R-706 GeneParser 是 一 个 基于 动态 规划 方法 的 基因 识别 程序 .其 算法 描 
述 见 : 
E. E. Snyder, and G. D. Stormo, "Identification of coding regions in 
genomic DNA", J. Mol. Biol. 248 (1995) 1 - 18. 
i a: 
http://cbil.humgen.upenn.edu/^sdong/ 

R-707 AAT Æ Analysis and Annotation Tools 的 缩写 。 这 个 程序 主要 靠 
与 数据 库 中 已 知 的 蛋白 质 和 cDNA 序列 对 比 ， 来 识别 编码 区 和 内 会 
F. IRTI A. FAE A: 
X. Huang, M. D. Adams, H. Zhou, and A. R. Kerlavage, "A tool for 
analyzing and annotating genomic sequences". Genomics 46 (1997) 37 
- 45. 
网 址 : 
http://genome.cs.mtu.edu/aat.html 

R-708 MORGAN 是 Multiframe Optimal Rule-based Gene A Nalyzer 的 缩 
G. 这 个 程序 使 用 统计 学 中 的 决定 树 方 法 ， 以 19 种 特性 的 集合 来 区 
分 DNA fS IS] Hr Ex, 3CELK ERE RAE UM BER, Bf Eo K, 
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算法 描述 见 : 

S. Salzberg, “Locating protein coding regions in human DNA using a 
decision tree algorithm", J. Comp. Biol. 2 (1995) 473 - 485. 

网 址 : 

http://www.cs.jhu.edu/1abs/compbio/morgan.html 

R-709 GenView Fe Fr 4f RH IEI T 5c iE EKRA YR PE SOT DS SU 
DRA. AEREA: 

L. Milanesi, “GenView: a computing tool for protein-coding regions 
prediction in nucletide sequences", in [R-3] , 1993, 573 - 588. 
网 址 : 

http://wuw.itba.mi.cnr.it/webpage/ 

R-710 ORF Finder, Æ NCBI 提供 的 帮助 再 户 寻 找 开 放 读 框 f 9] Ak 
务 . RP sg B BN RBS SP LE, 也 可 按 索 取 号 从 数据 库 
RI EIA, HRES MEREKA. 网 址 : 
http://ncbi.nlm.nih.gov/ 

R-711 GeneFinder 程序 、 这 是 BCM Search Launcher [(R-653]| £t 65 £i 
合 服 务 的 一 部 分 ， 可 以 针对 不 同 物种 、 使 用 多 种 方法 寻找 基因 . 网 
bt: 
http://dot.imgen.bcm.tmc.edu:9331/gene-finder/gf.html 

R-712 GeneID 是 一 个 基于 规则 的 程序 , 用 于 识别 脊椎 动物 基因 中 的 编码 
区 . 算法 描述 见 : 

R. Guigo, S. Knudsen, N. Drake, and T. Smith, "Prediction of gene 

structure", J. Mol. Biol. 226 (1992) 141 - 157. 

网址 ， 

http://www.imim.es/GeneIdentification/ 
Geneid/geneid.input.html 

R-713 PROCRUSTES 2I X 890) 6r ARREA, AUFERET BO A Aha 
能 组 合 中 挑选 最 适应 有 关 和 蛋白 质 者 ， 算 法 描述 见 : 

M. Gelfand, A. Mironov, and P. Pevzner, "Gene recognition via spliced 
sequence alignment", Proc. Natl. Acad. Sci. USA 93 (1996) 9061 - 
9066. 
网 址 : 
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http://www-hto.usc.edu/software/procrustes/index.html 

R-714 SeqPup 程序 。 D. Gilbert Hj Java 语言 编写 的 这 套 生 物 序列 编辑 
和 分 析 程 序 ， 是 过 去 只 适用 于 Macintosh 平台 的 SeqApp IF (AP 
APA) 的 发 展 ， 适 用 王 一 切 支持 Java 的 平台 . 它 包含 对 许多 网 络 
资源 和 网 上 分 析 程 序 的 链接 .可 以 进行 多 序列 联 配 和 编辑 、 支 持 多 
种 序列 格式 、 做 DNA 到 蛋白 质 序列 的 翻译 、 求 DNA 序列 的 共 轧 序 
5), 联 配 序列 的 带 方 框 或 阴影 区 的 打印 等 等 . 所 能 调用 的 外 部 分 析 程 
序 包括 ClustaiW [R-656] 、 CAP [R-692] 和 TACG [R-715] 6€, Iw 
hk: 
http://iubio.bio.indiana.edu/seqpup/ 

R-715 TACG EF, H. Mangalam 编写 的 对 DNA HEX it A tR Sr Fr If] 
程序 ， 可 从 SeqPup [R- 714] 等 集成 程序 中 调用 ， 网 址 : 
http://hornet.bio.uci.edu/^hjm/projects/tacg/ 
ftp://iubio.bio.indiana.edu (/restrict-enz/tacg) 

R-716 Glimmer 是 基因 定位 和 内 播 过 可 大 模型 (Gene Locator and Inter- 
polated Markov Modeler) WA. iX Hk Fd A $8 Ba aX T RREY 2E 
识别 编码 和 非 编 码 序列 的 程序 .其 使 用 可 参看 ， 

S. L. Salzberg, A. L. Delcher, S. Kasif, and O. White, "Microbial gene 
identification using interpolated Markov models", Nucleic Acids Res. 
26 (1998) 544 — 548. 

源 程序 可 自由 下 载 : 
http://www.cs.jhu.edu/labs/compbio/glimmer.html 

R-717 GeneMark 程序 使 用 隐 乌 可 夫 链 来 识别 内 含 子 和 外 显 子 ， 寻 找 编 
码 区 . 它 对 于 原核 生物 比较 有 效 . 程序 描述 见 ; 

M. Borodovsky, and J. McIninch, “GENMARK: parallel gene recogni- 
tion for both DNA strands", Comput. Chem. 17 (1993) 123 - 133. 
Pdl: 

http://www2.ebi.ac.uk/genemark/ 

R 718 SEView F $ (o HE m RULES DNA Fr eus pis x H 
元 件 ， 撒 述 见 : 

T. Junier, and P. Bucher, "^SEView: a Java applet for browsing molec- 
ular sequence data", Jn Silico Biol. 1 (1998) 13 - 20. {可 从 该 入 网 址 
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[R-7] 免费 下 载 ) 

通过 WWW 浏览 器 使 用 这 一 程序 的 网 址 是 : 
ftp://ftp.isrec.isb-sib.ch/sib-isrec/SEView/ 
源 程 序 在 ， | 

ftp://cmpteam4 .unil.ch/ 


R-719 GRAIL 是 “基因 识别 分 析 互 联网 链接 ”{Gene Recognition Analysis 


Internet Link) 的 缩写 。 这 是 美国 橡树 岭 国 家 实验 室 在 能 源 部 人 类 基 
因 组 计划 支持 下 编写 的 一 套 程 序 ， 它 使 用 神经 网 络 来 发 现 核酸 序列 
中 的 编码 外 显 子 .其 几 个 版 本 除 方 法 改进 外 ， 所 用 训练 序列 不 同 : 
GRAIL 1 XA., KRAKET, GRAIL 1a JAMZ, GRAIL 
2 为人、 家 上 鼠 、 拟 南 芥 和 果 蝇 . 各 版 本 并 存 供 选 择 。 用 户 可 以 用 多 种 
方法 享用 这 套 服 务 . 最 简单 的 办 法 是 用 电子 邮件 提交 序列 : 
mailto: grailGornl.gov (用 HELP 获取 使 用 说 明 ) 

GRAIL 和 GenQuest [R-652] 有 一 个 共同 的 WWW ug 5i Fe Hl, 
R URL 是: 
http://compbio.ornl.gov/Grail-1.3/ 
此 目录 下 有 help.html , 3i 2f t GRAIL 返回 的 结果 , 再 提交 GenQuest 
与 数据 库 中 的 全 部 序列 比较 。 GRAIL 是 目前 使 用 得 最 为 普遍 的 从 序 
列 中 寻找 基因 的 程序 之 一 . 早 在 1996 年 , 它 每 个 月 平均 就 要 处 理 4000 
万 碱 基 对 . 


R-720 GeneExpress ， 是 以 俄国 学 者 为 主 与 欧洲 合作 研制 的 一 个 程序 系 


统 ， 它 在 EBI [R-131] 的 SRS [R-203] 界面 基础 土 集成 了 对 真 核 生 
物 基因 组 内 调控 序列 的 识别 、 分 析 和 描述 . 此 系统 的 介绍 见 ISMB98 
[R-826] 会 议 文集 中 N. A. Kolchanov 等 25 位 作者 的 文章 . 该 文 可 从 
以 下 网 址 下 载 : 

http://wawmge .bionet.nsc.ru/mgs/papers/kol/ismb98/ 

程序 系统 本 身 在 : 


http://wwwmgs.bionet.nsc.ru/mgs/systems/geneexpress/ 


R-721 tRNAscan-SE 程序 专门 在 基因 组 序列 中 寻找 tRNA . 描述 见 : 


T. M. Lowe, and S. R. Eddy, Nucleic Acids Res. 25 (1997) 955 — 964. 


网 址 : 
http://www.genetics.wustl.edu/eddy/tRNAscan-SE/ 
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R-722 RNABOB 程序 预测 RNA 二 级 结构 ， 速 度 较 快 ， 但 不 及 Palingol 
[R-723] 5f. KIHE: 
bhttp://www.genetics.wustl.edu/eddy/software/trnabob 

R-723 Palingol 程序 预测 RNA 二 级 结构 。 网 址 : 
http://www.abi.snv.jussieu.fr/cgi-bin/ 


wrap/viari/Palingol/ 
R-724 TRADAT 是 -一 个 集成 的 预测 DNA 序列 中 与 基因 有 关 的 各 种 特性 
的 程序 。 殉 址 : 


http://www.itba.mi.cnr.it/tradat/ 

R-725 NIX 是 另 一 个 集成 的 从 DNA 序列 预测 基因 的 程序 。 网 址 : 
http://menu.hgmp.mrc.ac.uk/Nix/ 

R-726 Pol3Scan 服务 器 也 可 用 于 寻找 tRNA ， 因 为 许多 RNA 基因 包 合 
内 部 RNA REM Pol HI 启动 子 。 描述 见 : 
A. Pavesi, Nucleic Acids Res. 22 (1994) 1247 - 1256. 
Ip hb: 
http://irisbioc.bio.unipr.it/pol3scan.html 

R-727 PROMOTER SCAN ,启动 子 扫 摘 程序 、 借助 查找 转 孙 因子 结合 
位 点 ， 预 测 第 I 类 RNA 聚合 酶 启动 位 点 .描述 见 : 
D. S. Prestridge, J. Mol. Biol. 249 (1995) 923 - 932. 
网 址 : 
http://biosci.umn.edu/software/proscan/promoterscan.htm 
http://bimas.dcrt.nih.gov/molbio/ 
ftp://biosci.umn.edu (/pub/proscan/) 

R-728 SIGNAL SCAN 程序 ,查找 所 提交 的 序列 中 是 否 包含 已 发 表 的 信 
号 序列 ， 主 要 是 转录 因子 . 所 找到 的 信号 中 有 许多 错误 ， 必须 结合 序 
列 来 源 的 生物 体 、 细 胞 和 环境 加 以 甄别 。 描述 见 : 
D. S. Prestridge, CABIOS ( Bioinformatics) 12 (1996) 157 - 160. 
网 址 : 
http://bimas.dcrt.nih.gov/molbio/signal/ 

R-729 TFSEARCH 程序 查找 转录 因子 结合 位 点 ， 相 当 灵 敏 . 网 址 : 
http://www.genome.ad.jp/SIT/TFSSEARCH.html 

R-730 PatSearch F3} DNA 序列 中 的 调控 元 件 。 描述 见 [R-735] 的 
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引文 。 网 址 ， 
http://transfac.gbf.de/cgi-bin/patSearch/patsearch.pl 

R-731 TESS iF iE 18 2 $65 D3-T- £r DE ex ARS. 描述 见 ， 
J. Schug, and G. €. Overton, “TESS: Transcription element Search 
Software on the WWW”, Tech. Rep. CBIL-TR-1997-1001-v0.0 Com- 
putational Biology and Informatics Laboratory, School of Medicine, 
University of Pennsylvania. 
网 址 : 
http://agave.humgen.upenn.edu/utess/tess31/ 

R-732 MatInspector 程序 ， 利用 TRANSFAC [R-219] 数据 库 所 提供 的 调 
控 元 件 的 代表 序列 和 权重 矩阵 ,在 DNA 中 寻找 这 些 结合 位 点 . 描述 
见 : 
K. Quandt, Nucleic Acids Res. 23 (1995) 4878 — 4884. 
网 址 : 
bttp://wwu.gsf.de/cgi-bin/mastersearch.pl 

R-733 FunSiteP 程序 预测 DNA 序列 中 的 启动 子 位 置 ， 描 述 见 ， 
Y. V. Kondrakhin 等 5 位 作者 ， CABIOS (Bioinformatics) 11 (1995) 
471 - 488. 
网 址 : 
http://transfac.gbf.de/dbsearch/funsitep/fsp.html 

R-734 PromDF /33] T1913 EU. 
ftp://beagle.colorado.edu (/pub/PromFD.tar) 

R-735 FastM 服务 器 ,在 一 定 距离 内 寻找 同时 存在 的 两 个 调控 元 件 , 因此 
可 以 显著 降低 转录 因子 结合 位 点 的 误 报 率 。 扩 述 见 : 
T. Heinemeyer 等 12 f; 1t 31, Nucleic Acids Res. 26 (1998) 362 - 367. 
网 址 : 。 
http://transfac.gsf.de/cgi-bin/fastm.pl 

R-736 SaGa 服务 跨 使 用 遗传 算法 分 析 DNA. 结构 (Structural Analysis 
with Genetic Algorithm) ， 它 从 一 组 已 经 联 配 好 的 序列 中 发 现 共同 
的 结构 上 的 特征 .用 六 须 在 网 页 上 提交 序列 。 阅 址 : 
http://transfac.gbf.de/TRANSFAC/cgi-bin/saga/saga.pl 

R 737 MFOLD 是 预测 RNA 二 级 结构 的 程序 . 它 是 GCG [R-792] 程序 


reas, 
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包 的 一 部 分 ， 办 而 不 能 免费 获得 . 但 网 上 有 有 一 个 PC BLISRS Ax, BELL 
一 试 。 网 址 : 

ftp://ftp.fly.bio.indiana.edu 

HX X fF /molbio/ibmpc/pcfldsrc.uue (UUENCODED) , 

R-738 维也纳 大 学 有 一 个 UNIX 系统 的 预测 RNA 二 级 结构 的 程序 ; 
ftp://itc.univie.ac.at 

R-739 HMMER AX HI pa uf X is cB TEC A A HI IK. SC BE (profile) 的 程序 
&, ap HI UL E EDO 78 ELE Pj RR te EE HJ. Pfam [R478] 数 
据 库 就 包含 一 批 用 此 程序 产生 的 HMM 模型 。 网址; 
http://hmmer.wustl.edu/ 

R-740 HMMPRO È [R- 18; 一 书 作 者 之 一 P. Balsi 4 5 Ij Hj fo i5 af A pE 
模型 做 序列 分 析 的 程序 ， 其 最 新 的 2.2 版 由 NET-ID 公司 销 做 ， 从 事 
学 术 研 究 的 个 人 ， 可 在 注册 取得 允许 后 免费 下 载 . 网 址 ， 
http://www.netid.com/ 

R-741 MZEF 是 冷 录 港 实验 宁 (R-159] 张 奇伟 编写 的 预 油 DNA 序列 中 编 
码 外 显 子 的 程序 . 它 的 算法 已 经 发 表 : 

M. Zhang, Proc. Natl. Acad. Sci. USA 94 (1997) 565 - 568, 
非 营利 性 用 户 可 从 以 下 ftp 服务 器 下 载 : 
http://sciclio.cshl.org/genefinder/ 
ftp://ftp.cshl.org (/pub/science/mzef/) 

R-742 CorePromoter 是 冷泉 港 实验 室 [R-159| 张 奇 伟 编 写 的 预测 人 类 基 
因 中 核心 局 动 子 的 程序 、 其 算法 已 经 发 表 : 

M. Zheng, "Identification of human gene core-promoters in silico", 
Genome Hes. 8 (1998) 319 - 326. 

非 营 利 性 用 户 可 从 以 下 ftp 服务 器 下 载 : 

ftp://ftp.cshl.org (/pub/science/promoter/) 

R-743 ESTScan 服务 , 用 户 可 提交 DNA 序列 , 以 查找 其 中 的 EST 片段 . 
此 系统 对 人 和 哺乳 类 动物 优化 ， 不 可 用 于 其 他 物种 网址; 
http://www.ch.embnet.org/software/ESTScan.html 

R-744 美国 国家 生物 信息 中 心 NCBI 提供 “电子 PCR ”服务 . HEP ELI 
交 核 酸 序列 ， 查 找 其 中 包含 的 已 知 的 EST 片段 . 请 由 NCBI (R-134] 
BG Kg bb JE A 


~ 


$57 DNA Hm "ia f ie 2i9 


http://ncbi.nlm.nih.gov/ 

R-745 TRF & FRR E BS)F3] (Tandem Repeats Finder) 的 程序 . 博 述 
DUE 
G. Benson, J. Comp. Biol 4(1997) 351 367. 

TRF 服务 器 的 网 址 : 
http://c3.biomath.mssm.edu/trf .upload.form.html 

R-746 Satellites HJF, F RERA KLEEF]. HE: 

M. F. Sagot, and E. W. Myers. J. Comp. Biol. 5 (1998) 539 - 554. 

网 址 : 

http://bioweb.pasteur.fr/seqanal/ 
interfaces/satellites.html 

R-747 HLA-Bind ， 白 细胞 抗原 肽 链 结 合 位 点 的 预测 程序 ， 网 址 : 
http://bimas.dcrt.nih.gov/molbio/hla bind/ 

R-748 RepeatMasker 是 华盛顿 大 学 A. FF. A. Smit # P. Green 发 展 的 一 
套 程 序 ， 它 检查 用 户 提交 的 序列 中 所 包含 的 已 知 的 重复 序列 和 简单 
( 低 复 杂 度 ) 序列 ， 并 把 相应 字母 “ 掩 去 "， 即 换 成 NI( 或 X) 。 这 个 程 
序 可 以 下 载 到 本 地 计算 机 上 运行 ， 也 可 通过 WWW 网 页 或 电子 邮件 
提交 序列 ， 它 的 运行 要 求 调 用 RepBase [R-223] WWIE, jyh: 
http://ftp.genome.washington.edu/RM/RepeatMasker.html 
mailto:  repeatmaskerQftp.genome.washington.edu 
可 在 电子 邮件 主体 中 写 HELP 以 获取 使 用 说 明 . 

R-749 Dotter 程序 ， 是 用 点 阵 法 进行 两 个 序列 对 比 的 程序 ， 也 可 用 于 在 
同一 个 序列 中 查找 重复 或 递 重复 片段 . 其 优点 是 形象 化 , 缺点 是 只 ii 
用 于 不 太 长 的 序列 . 它 可 以 开 密 口 来 显示 指定 段落 的 联 配 情况 . 程序 
Tx. 

E. L. L. Sonnhammner, and R. Durbin, Gene 167 (1995) GC1 - GC10. 
可 免费 从 KISAC [R-145] 的 网 址 下 载 ， 亦 见 : 
ftp://ncbi.nlm.nih.gov (/pub/esr/dotter/) 

R-750 RHMAPPER 程序 ， 是 由 WICGR [R-158] A RE ff) 8 9t SRBT Ae ox 
图 谱 软 件 。 它 基于 最 大 似 然 模型 ， 可 从 以 下 网 址 获取 : 
http://www.genome.wi.mit.edu/ftp/pub/software/rhmapper/ 

R-751 BEND 和 BEND-TRI 都 是 预测 DNA Ha ti rioin dit E PRU, 
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Dp M: 
D. S. Goodsell, and R. E. Dickerson, Nucleic Acids Res. 22 (1994) 
5497 - 5503. 
网 址 : 
http://www.scripps.edu/pub/goodsell/research/bend/ 
R-752 CURVATURE 是 预测 DNA 链 曲 紊 的 程序 。 撕 述 见 : 
E. S. Shipigelman, E. N. Trifonov, and A. Bolshoy, CABIOS (Bioin- 
formatics) 9 (1993) 435 - 440. 
网 址 : 
ftp://sgjsl.weizmann.ac.il (/pub/Curvature/) 


$5.8 重 白 质 结 构 和 功能 预测 


DNA 序列 的 测序 速度 , 远近 超过 测定 蛋白 质 三 维 结构 的 进展 . 因此 ， 
如 何 从 蛋白 质 序 列 甚至 由 DNA. 读 框 翻译 出 的 氨基 酸 序列 预测 可 能 的 蛋 
白质 结构 ， 就 成 为 迫切 的 任务 . 目前 较为 有 效 的 预测 方法 ， 都 要 依靠 已 知 
三 维 结构 的 蛋白 质 的 序列 来 预测 折 恒 单元 . ECT SOME (profile) 的 预测 方 
法 ， 通 常 假定 两 段 被 比较 的 蛋白 质 序 列 的 氨基 圾 残 基 接近 水 环境 的 情形 
是 保守 的 . 另 一 种 所 谓 “ 线 捉 法 ” (threading) 则 把 残 基 环境 中 的 疏水 作 
用 相 加 ， 因 而 效果 稍 好 . 但 对 于 多 结构 域 的 蛋白 质 序列 ， 线 捉 法 的 效果 不 
和 佳 。 当 序列 中 残 基数 目 超过 S00 时 ， 目 前 很 难 作 出 有 意义 的 预测 . 
R-753 Threader 程序 , 使 用 线 串 法 预测 蛋白 质 序列 的 三 级 结构 . 撒 述 见 : 

D. J. Jones, W. R. Taylor, and J. M. Thronton, Nature 358 (1992) 86 

- 89; Proteins 23 (1995) 337 — 355. 

此 软件 的 2.5 NER TE 8 Dr DO RT VETE BEAR H FR. Kohi: 

http://globin.warvick.ac.uk/^ jones/threader.btml 
R-754 LIBRA I Æ Light Balance for Remote Analogous proteins 85443. 

这 是 一 套 分 析 蛋 白质 结构 和 序列 的 程序 ， 其 主要 手段 是 “ 线 婴 法 ” 

(threading) 。 网址: 

http://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA I.html 

Xu dcx dip a a p gr dm OUR DERE, 1S. 


M. Ota, and K. Nishikawa, "Feasibility in the inverse protein folding 
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protocol", Protein Sci. 8 (1999) 1001 - 1009. 

R-755 PEDANT 程序 系统 ， 允 许 用 户 综合 使 用 多 种 方法 从 重 白 质 序列 预 
测 其 结构 和 和 功能， 网 址 ; 
http://pedant.mips.biochem.mpg.de/ 

R-756 SAPS ,这 是 一 个 给 白质 序列 统计 分 析 (Statistical Analysis of Pro- 
tein Sequences) 程序 .其 算法 扒 述 见 : 
V. Brendel 等 5 位 作者 ，“Methods and algorithms for statistical ana- 
lysis of protein sequences", Proc. Natl Acad. Sci. USA 89 (1992) 
2002 - 2006. 
用 户 可 从 以 下 网 页 提交 序列 ， 进 行 分 析 ， 
http://www.isrec.isb-sib.ch/softvare/SAPS form.html 

R-757 GeneFIND 不 是 一 个 寻找 基因 的 程序 ， 而 是 帮助 确定 蛋白 质 家 族 
WTE, BP Gene Family Identification Network Design 的 缩写 ， 它 是 
-基于 ProClass 数据 库 [R-411] 的 一 组 集成 的 搜寻 和 联 配 程序 . 它 首 
先 从 快速 神经 网 络 程序 MotiFind 出 发 ， 然 后 使 用 BLAST [R-631] 争 
寻 和 Smith-Waterman fR-623] 算法 做 联 配 ， 即 调用 SSearch [R- 624] 
程序 ， 进 行 模 体 搜寻 .最 终结 果 用 HTML Fest rib, (LTEM pou 
fk 的 打分 数 、 与 PROSITE 数据 库 [R-406] 和 PIR 数据 库 [R-404] 中 
超 家 族 的 匹配 清单 、 模 体 匹 配 ， 以 及 到 ProClass 数据 库 条 目的 链接 
等 。 网 址 : 
http://diana.uthct.edu/genefind.html 

R-758 COILS 服务 器 ， 根 据 蛋 白质 序列 预测 由 两 条 a 螺旋 形成 卷曲 螺旋 
(coiled coil) 的 区 域 ， 算 法 描述 见 : 
A. Lupas, M. Van Duke, and J. Stock, “Predicting coiled coils from 
protein sequences", Science 252 1162 - 1164. 
用 户 可 从 以 下 网 页 提交 序列 ， 进 行 预测 : 
http://www.ch.embnet .org/software/COILS.form.html 

R-759 CASP(Critical Assessment of methods of protein Structure Predic- 
tion) Æ Æ Bd Es H HX Pd. E tA 28 f d& A M £6 PE TRUNU 7; 2 VE de f 9E E, DS 
经 举行 过 三 届 。 请 参看 网 址 : 
http://moult.carb.nist.gov/ 
XT 2000 年 正在 进行 的 CASP4 ， 可 访问 网 址 ， 
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http://predictioncenter.llnl.gov/ 

R-760 PHD 是 一 套 集成 的 根据 蛋白质 序 列 搜索 数据 库 和 用 多 种 方法 预测 
和 蛋白质 性 质 的 程序 . 日 前 它 包 含 一 组 程序 : 预测 二 级 结构 的 PHDsec 、 
预测 溶剂 可 及 性 的 PHDacc 、 预 测 跨 膜 螺旋 的 PHThtm , Pim bn fF 058 
PHDtopology 和 线 囊 法 预测 折 巷 的 PHDthreader 等 。 它 返 癌 的 结果 
包含 数据 库 中 多 相似 序列 的 联 配 、PROSITE (R-406] 模 体 、ProDom 
[R-480| 结构 域 、 卷 曲 螺 旋 区 、 球 形 区 、 监 膜 区 等 。 用 户 可 以 从 网 页 
或 用 电子 邮件 提交 序列 .从 1999 年 切 ， 原 在 海德 堡 欧 洲 分 子 生 物 学 
实验 室 的 网 址 : 
http://www.embl-heidelberg.de/predictprotein/ 
mailto:  predictproteinQembl-heidelberg.de 
已 经 转 到 美国 组 约 如 伦比 业 大 学 的 网 址 : 
http://cubic.bioc.columbia.edu/predictprotein/ 
mailto:  phdédodo.cpmc.columbia.edu 
PHD 系统 有 详细 的 使 用 说 明 ， 可 用 电子 邮件 HELP 获取 ， 或 在 网 页 
上 阅读 ; 
http://cubic.bioc.columbia.edu/ 

predictprotein/help entry.htmi 
也 可 下 载 有 关 文 件 : 
ftp://cubic.bioc.columbia.edu 
在 子 目录 /pub/phd/ 中 取 wwwPP.tar.gz ffl ReadMe 两 个 多 件 . 
PHD 蛋白质 预 测 程 序 的 中 国 镜 象 点 在 北京 大 学 生物 信息 中 心 ， 可 遂 
过 [R-166] 网 页 的 predictprotein 选项 进入 ， 或 直接 访问 网 址 : 
http://www.cbi.pku.edu.cn/predictprotein/ 

R-761 英国 癌症 研究 基金 会 (Imperial Cancer Research Fund ， 简 称 ICRF) 
的 分 子 生 物 模 型 实验 室 有 有 一 个 识别 蛋白 质 结 构 域 的 服务 器 、 道 常 称 
为 ICRF 服务 器 。 网址 : 
http://www.bmm.icnet.uk/^domains/ 

R-762 PREDATOR HUY, METES DRAA t. dl 
TitA POGEAGB HERI, AER A. WoE 
D. Frishman, and P. Argos, Prot. Eng. 9 (1996) 133 — 142: Proteins 
27 (1997) 329 - 335. 
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可 从 PEDANT [R-755] 中 调用 ， 也 可 访问 网 址 : 
httP: /Auvw.emb1-heidelberg.de/argos/predatory 

R-763 Prof EJF, WIERNA AAH. 这 是 原来 DSC 程序 的 第 二 代 . 
网 址 : 
http://www.bmm.ncnet.uk/"prof/ 

R-764 NNSSP HFF, ih litur jp X I FOU SEI LI EE AS FJ. Wihl: 
http://dot.imgen.bcm.tmc.edu:9331/pssprediction.pssp.htmi 

R-765 Jpred2, ， 这 是 日 前 公 以 为 较 好 的 由 蛋白 质 序列 预测 一 级 结 档 的 服 
务 . 它 综 合 使 用 若干 种 方法 , 包括 先 搜 当 PDB [R-441] 库 里 存 没 有 机 
似 的 序列 。 PDB 中 的 相似 序列 往年 更 有 意义 ， 不 必 重 新 预测 二 线 结 
Hj. Jpred2 的 算法 还 未 发 表 ， 因 此 不 能 下 载 到 本 地 计算 机 土 运 行 ， 
只 能 把 序列 提交 到 以 下 类 页 : 
http://jura.ebi.ac.uk:8888/ 

R-766 nnpredict RF, HEH iR A SE A IS FJ. SEIS AS 
述 见 : 
D. G. Kneller, F. E. Cohen, and R. Langridge, "Improvements in pro- 
tein secondary structure prediction by an enhanced neural network”, 
J. Moi. Biol. 214 (1990) 171 . 182. 
用 户 可 从 网 页 或 用 电子 邮件 提 父 序列 ， 每 次 只 能 提交 -个 序列 ， 可 
以 使 用 氨基 版 的 单字 舟 名 字 (但 不 许 用 B 和 2Z) ， 也 可 以 用 三 字母 名 
字 ， 但 须 以 空格 分 开 . 网 址 ; 
http://www.cmpharm.ucsf.edu/^nomi/nnpredict.html 
mailto: nnpredictQceleste.ucsf.edu 

R-767 SignalP EF, H iffe f AM A ERF Ah Bg fs SK. 算法 描述 
见 : 
H. Nielsen, J. Engelbrecht, S. Brunak. and G. von Heijne, Prot. Eng. 
10 (1997) 1 … 6. 
可 从 网 页 或 用 电子 邮件 提交 序列 : 
http://www.cbs.dtu.dk/services/SignalP/ 
mailto:  signalpQgenome.cbs.dtu.dk 

R-768 Structer ， 一 个 由 和 蛋白质 三 维 结构 产生 接触 图 的 程序 , EX RR E S 
出 一 个 和 矩阵， 反映 避 和 白质 序列 中 哪些 氨基 酸 残 基 在 天 维 结构 中 UU 
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f. 


ftp://ncbi.nlm.nih.gov (/pub/esr/structer/) 


THE- 5t SRAETDTPERSYSaRS. 我 们 仅 把 网 址 记录 在 案 ， 
以 供 参 考 。 同时， 请 注意 [(R 760] 中 的 PHThtm 程序 ， 

R-769 TMpred 是 预测 蛋白 质 中 跨 膜 区 及 其 取向 的 程序 , 它 调用 TMbase 
[R-471] ， 网 址 ; 
http://www.ch.embnet.org/software/TMPRED form.html 
http://ulrec3.unil.ch/software/TMPRED form.html 

R-770 http://www.biokemi.su.se/^server/ TopPred2DAS 

R-771 http://www.cbs.dtu.dk/services/TMHMM-1.0/ 

R-772 http://globin.bio.warvwick.ac.uk/psipred/ 

R-773 使 用 表面 紧 致 排列 (Dense Alignment Surface ， 简 称 DAS) 77 i5. 
预测 跨 膜 蛋白 质 的 程序 . Wat: 
http://www.biokemi.su.se/^server/DAS/ 

R-774 TMAP , KHH TEAT 3c Se E PRIMI S LR FT] epu A S AE S 
上 服务 : 
http://www.embl-heidelberg.de/tmap/tmap.info.html 
原来 的 电子 邮件 服务 tmapgembl-heidelberg.de 已 经 停止 . 


使 用 二 维 凝 胶 电泳 ( 见 3.6.4 小 节 和 2DPAGE 数据 库 [R-419]) ， 可 
在 一 次 实验 中 分 辨 上 千 种 重启 质 . 互联 网 上 他 一 些 服务 ,协助 于 户 比较 岂 
bk PP. 
R-775 Flicker 服务 网 页 ， 可 以 比较 来 自任 何 两 个 URL 的 2D-PAGE 图 
象 . 描述 见 ; 
P. F. Lemkin, “Comparing 2D electrophoretic gel images across the 
Internet", Electrophoresis 18 (1997) 461 -- 470. 
Flicker 服务 可 在 Netscape 4.0 和 Internet Explorer 4.0 所 个 的 浏览 器 
中 送行 ， 网 址 ， 
www-lecb.ncifcrf.gov/flicker/ 
R-776 Melanie 3 服务 ， 是 与 SWISS-2DPAGE [R-419] Xe d E Ac E ow 
9X EG EE ER E — HE BEL ARRA, ETA ExPASy [R- 142] 的 网 页 进 
A. Am. nPELU S Ab AFEMI ES: 
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http://expasy.pku.edu.cn/melanie/ 


85.9 ”显示 蛋白质 和 核酸 结构 的 程序 


显示 大 、 小 分 子 结构 的 程序 时 就 是 结构 生物 学 软件 包 的 重要 模块 
现在 有 大 董 美妙 的 、 可 以 动态 显示 甚至 做 动画 模拟 的 程序 . 这 里 只 提 几 种 
可 了 从 网 上 获取 的 、 使 用 较为 广泛 的 免费 软件 . 

R-777 RasMol 程序 ， 由 R. A. Sayle 编 与 。 这 是 使 用 得 最 为 广泛 的 一 个 显 
m DNA 和 蛋白质 等 分 子 三 维 结构 的 免费 程序 ， 可 以 圭 骨 架 图 、 条 带 
S. 空间 填充 图 等 各 种 方式 显示 ， 并 可 在 显示 时 随意 转动 分 子 。 其 撒 
述 见 ， 

R. A. Sayle and E. J. Milner- White. “RasMol: biomolecular graphics 
for all", Trends in Biochem. Sci. 20 (1995) 374 - 376. 

它 有 适用 于 各 种 平台 的 版 本 ， 可 从 E. Martz 维护 的 网 页 下 载 ; 
http://www.umass.edu/microbio/rasmol/ 

那里 还 可 以 获取 RasMol 使 用 说 明 书 ， 示 例 分 子 各 -一些 其 他 义 件 . 
RasMol 也 可 从 NCBI [R-134] 的 Cn3D {R-779] 显示 程序 的 网 页 下 
S. 

R-778 Chime ， 功 能 与 RasMol (R-777] 类 似 、 也 是 显示 分 子 三 维 结构 的 
免费 程序 。 但 与 RasMol 不 同 ， Chime 不 能 独立 运行 ， 而 要 在 网 页 
浏览 器 内 显示 。 学 术 性 用 户 可 以 从 MDL Information Systems 公司 的 
网 址 下 载 软 件 和 获得 信息 : 
http://wwu.mdli.com/ 

R-779 Cn3D 是 与 MMDB [R-463] 配套 的 一 个 三 维 分子 结 构 和 NMR 可 
型 的 显示 程序 ， 林 在 NCBI [R-134] 的 网 址 直接 使 用 或 下 载 到 用 户 的 
计算 机 上 执行 . 它 有 适用 于 PC 视窗 系统 和 多 种 UNIX 三 作 站 的 版 
本 .描述 见 : 

C. W. V. Hogue, Trends in Biochern. Sci. 22 (1997) 314 - 316. 

R-780 Protein Explorer, 蛋白质 结构 显示 程序 ， 简 称 PE 。 可 在 网 次 上 
使 用 ,也 可 在 PC 视窗 系统 中 运行 ， 目 前 还 没有 UNIX 版 本 . 网址 : 


http://www.umass.edu/microbio/chime/explorer/ 
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R-781 MolScript 是 Per Kraulis 编写 的 从 三 维 玲 标 显示 大 致 或 洋 信 的 分 
子 图 象 的 程序 . CARARE. 它 的 新 版 中 有 有 一 个 Mol- 
Auto 程序 扫 助 产生 输入 文件 。 MolScript 程序 出 作者 拥有 的 Avatar 
Software AB 公司 销售 ， 不 能 自由 获取 和 转让 ， 但 学 术 性 机 构 为 了 从 
事 纯 学 术 研 究 、 可 以 免费 获得 使 用 许可 证 。 1999 Æ 1 J) & (1.2.12 
版 ， 请 参看 MolScript f) iE X Bd: 
http://www.avatar.se/molscript/ 
关于 MolScript 的 使 用 说 明和 其 他 一 些 图 形 程 序 的 信息 ,还 可 访问 以 
下 网 址 : 
http://graph.sci.osaka-cu.ac.jp/^teddy/ 


85.10 ”大 规模 基因 表达 的 算法 


HF DNA 芯片 和 微 阵列 的 迅速 发 展 ， 对 基 一 物种 或 纠 织 中 全 部 基 

因 的 表达 关系 进行 整体 性 研究 己 经 提 上 日程 . Dian, HEGER 6 300 个 

基因 在 -- 个 生活 周期 中 进行 多 次 采样 ， 然 后 研究 它们 之 间 的 表达 关系， 

首先 是 按照 同步 或 反 同 步 表 达 ， 以 及 表达 强度 的 变化 , 把 刀 千 个 基因 分 成 

聚 类 《clusters}) 。 然后 出 之 构建 基因 调控 网络 、 代 谢 网 络 ， 提 取 调 探 过 积 

各 生化 反应 的 各 种 参数 . 这 正在 成 为 极其 活跃 的 研究 领域 . 目前 在 这 一 领 

域 还 没 大 成熟 的 县 务 网 页 。 关于 算法 问题 的 讨论 ， 可 以 从 每 年 的 太 半 洋 和 后 

物 计算 研讨 会 文集 [R~825] 查 到 线索 。 
关于 DNA 芯片 和 微 阵 列 ， 以 及 使 用 此 类 新 技术 对 大 规模 基 央 表达 

的 研究 ，、 可 以 访问 一 些 实验 室 的 网 页 ， 例 如 : 

R-782 MGuide ， 斯 坦 福 大 学 Pat Brown 实验 宁 的 “ 微 阵 列 导 引 "， 人 证 
细 的 技术 介绍 ， 其 目的 就 是 协助 读者 建立 设备 、 进 行 研 究 。 风 址 : 
http://cmgm.stanford.edu/pbrown/ 

R-783 V. Cheung 所 领导 的 基因 组 学 研究 室 把 DNA 微 阵 列 技术 和 GMS 
(Genome Mismatch Scanning) 结合 起 来 ， 直接 用 IBDIIdentieal-by- 
Descent) 作 图 详 . 内 这 种 技术 可 以 从 共享 TBD 的 个 体 分 离 DNA 片段 
MERE, 它们 维护 着 人 类 BAC Mit SRE GenMapDB [R -316] . 
W si: 


NAN- 4WwAC- 
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http://w95vcl.neuro.chop.edu/vcheung/ 

R-784 3& [8| E (9 UT AE ^k qf LEM RO PEE P ZH, RU HSESE KAA RI 
SXTF. iA US (ED fendi 185 d Al; 
http://www.bioinf.man.ac.uk/microarry/ 

R-785 关 王 细菌 功 能 某 办 组 学 , fl ACA BS FT P 8E ERIT] ACCURRIT SE, 
可 参看 网 页 ， 
http://bomi.on.edu/faculty /tconway / global. html 
他 们 的 论文 亦 可 参考 ， 

T. Tao 等 ，J Bacteriol, 181 (1999) 6425 - 6440. 

这 一 新 领域 的 文献 尚 不 多 . 18 YE EMIACOE SEBRE SE TEE SES CR IL 
B9: 9i E. dy 一 个 随时 更 新 的 文献 目录 : 
R-786 闻 问 天 微 阵列 文献 目录 ， 网 丝 : 


http://linkage.rockefeller.edu/wli/microarray/ 


85.11 细胞 过 程 模拟 


细胞 是 生命 活动 的 基本 单元 .。 随 着 对 亚 细 胞 结构 的 了 解 和 对 细胞 内 
各 种 代谢 途径 与 信 叶 转 导 过 程 的 知识 和 数据 的 积累 ， 现 在 刀 经 可 以 党 试 
模拟 活 细胞 的 生活 过 程 . 这 征 比 核酸 和 恤 白 质 序列 更 商 层 次 的 生物 信息 
学 研究 课题 ， 1999 年 已 经 吾 良 好 开端 .1999 5:4 J]] 2 AWER BLA» 
AAA Y SERI: 
R-787 E-Cell. H EDEN XS (Keio) 大 学 生物 信息 学 教授 窗 田 【Masaru 
Tomita) 所 编写 的 E-Cell 程序 ， 在 Red Hat Linux [R 48] IKI F iz 
行 ， 目 前 已 进入 8 试 运 行 阶段 。 它 允许 用 户 规定 细胞 中 有 哪些 车 因 
和 其 他 分 子 ， 以 及 它们 的 位 置 和 浓度 ， 册 程序 去 模拟 生化 过 程 的 发 
JE. 运行 中 可 剔除 某 个 基因 ， 或 改变 营养 状况 ， 以 观 后 效 . 日 前 这 个 
程序 还 只 是 演示 基本 上 已 知 的 生化 反应 途径 。 从 长 还 看 ， 它 可 能 用 
in silico 实验 代 社 其 些 烦琐 的 in vitro 研究 ， 导 致 新 的 发 现 ， 1999 年 
12 月 2 日 的 英国 《自然 》 导 酬 在 讨论 2010 年 之 前 大 规模 科学 计算 
的 前 景 时 ， 也 提 到 E-Cell. FIFA ATIRIA H, HAR Ym 
使 用 说 如 书 ， 可 以 下 载 到 本 地 计算 机 上 运行 。 网 址 ， 
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http://www.e-cell.org/ 
英文 说 明 书 见 ， 
http://www.e-cell.org/manual/indexE.htm]l 


R-788 Virtual Celi, 3 PIR YE f Er S5 ^E o ELE RES ER PU (Center 


for Biomedical Imaging Technology ， 简 称 CBIT) 所 属 央 家 纲 胞 分 析 
和 模拟 资源 处 (National Resource for Cell Analysis and Modeling , 
简称 NRCAM) 的 生理 学 家 L. Loew 和 计算 科学 家 J. Schaf 联手 ， 
H Java 语 高 编写 的 这 个 “虚拟 细胞 ”和 程序， 提供 一 个 检 答 各 种 模型 
的 环境 ， 以 便 把 三 维 细 胸 中 搞 述 单个 反应 过 程 的 生化 反应 和 纪 生 昌 
数据 同 实 际 的 显微镜 成 象 结合 ,模拟 亚 细 胞 层次 的 细胞 活动 . 较 详 细 
的 描述 见 : 

J. Schaf, and L. M . Loew. "The virtual cell”, Pacific Symposium on 
Biocomputing 4 (1999) 228 — 239. (参看 [R-825]) 

目前 用 记 只 能 进入 该 大 学 的 网 页 运行 ; 


http://www.nrcam.uchc.edu/ 


R-789 AU URL] ^E Vo (Lt Pea REDE ERE, AAR EAA, OS 


生理 过 程 的 研究 .已 经 在 大 仿照 genome( 基 因 组 ) 和 proteomet£& I1 
质 组 ) ， 制 造 了 Physiome --- 字 ， 意 在 从 整体 上 研究 生理 过 程 . £A 
看 网 址 ; 

http://www.physiome.org/ 


85.12 向 数据 库 提交 序列 的 软件 和 服务 


由 实验 确定 的 新 核酸 序列 、 只 要 提交 到 GenBank {R-212} 、 EMBL 


[R-211] 或 DDBJ [R-213] 三 家 之 一 即 可 .有 一 批 软件 和 网 页 服务 协助 岂 
户 做 这 件 事 . 


向 NCBI(R-134] 所 管理 的 GenBank 提交 序列 ， 可 使 用 Banklt 或 


Sequin 两 种 办 法 。 
R-790 Sequin 是 在 本 则 计算 机 上 运行 的 程序 ， 它 可 以 协助 出 户 对 序列 微 


注释 和 进行 一 些 分 析 ， 最 终 形成 的 文件 可 用 电子 邮件 送 往 : 


mailto: gb-sbOncbi.nim.nih.gov 
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t ap HH dx d EE NCBI , 

R-791 Banklt 是 NCBI 网 页 的 一 个 选项 : 
http://www.ncbi.nlm.nih.gov/BankIt/index.htmi 
进入 之 后 根据 文字 说 明 操 作 ， 提 父 新 序列 或 更 新 旧 序 列 (只 有 原始 序 
列 提 交 者 才 有 权 更 新 ) . 
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5.13.1 ”商业 性 软件 


图 际 市 场 上 有 大 车 通用 或 专用 的 生物 计算 软件 .它们 大 多 价 档 总 洪 ， 
但 通常 有 较 好 的 服务 , 事实 上 , 价格 的 棉 当 部 分 在 于 购买 服务 。 下 面 简单 
介绍 的 几 种 软件 ， 或 是 因为 文献 中 经 常 提 到 ， 或 有 是 由 于 我 们 自己 纺 有 接 
feb. 我 们 的 简介 完 人 多 没有 对 这 些 软件 作 评 价 或 推荐 之 意 . 

R-792 GCG 程序 包 ， 最 初 是 Wisconsin 大 学 的 Genetic Computer Group 
发 展 和 的， 后 者 现在 是 位 于 美国 加 州 的 Oxford Molecular Group Tfj F 
公司 ， GCG & 130 多 个 与 分 析 朋 关 的 程序 ， 有 6 种 重要 生物 数 
据 库 随 程 序 包 一 起 提供 ， 并 由 GCG 公司 负责 每 两 个 用 哆 新 -~ 次 . 我 
国有 些 单位 或 月 行 引 进 、 或 丰 外 图 公司 支持 下 获得 了 这 僚 程 府 ， 仁 严 
格 限于 单位 内 部 使 用 、GCG 有 详细 的 使 用 说 明 书 ， 这 里 只 作 简 要 介 
绍 . 

第 一 、GCG 程序 包 的 内 容 ， 我 们 由 分 类 点 名 : 

l. 序列 比较 程序 ， 双 序列 联 配 有 Gap, BestFit, Compare , 
DotPlot 等 ， 多 序列 联 配 有 PieUp, 

2. 数据 库 搜索 各 分析 程 序 ，LookUp 、StringSearch 、BLAST 、 
FASTA 、 NetBLAST 等 ， 其 中 BLAST 和 FASTA 都 搜索 本 地 数据 
库 ， 而 NetBLAST 经 过 与 联网 去 搜索 NCBI [R-134] 的 数据 库 . 

3. 演化 和 亲缘 关系 程序 Distances 、 Growtree 、 Diverge X, 

4. 序列 片段 组 装 程序  Gelstart 、 Gelmerge 、 Gelassemble , 
Geldisassemble 5&, 

5. 寻找 基因 和 识别 模 体 的 程序 : Frames, Motifs, Repeat, 
Findpattern 、 Xnu, Seg 等 . 
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6. RAMa FEIF: Profilescan 、 Peptidesort , Moment 、 
Helicalwheel 、 Isoelectric, Pepplot 等 , 

7. RNA 二 级 结构 预测 程序 — Mfold 、 Plotfold , Foldrna 、 
Stemloop , Circles 5€, 

8. 还 有 用 引物 设计 .格式 转换 、 打 印 输 出、 图 诺 处 蛙 、 数 据 库 
和 序列 查询 等 方面 的 程序 ， 此 处 从 略 . 
第 二 ，GCG 和 有 三 种 基本 的 运行 方式 : 

L UNIX 三 作 站 圭 的 命令 行 方式 .内 要 看 每 次 运往 于 始 时 ， 朋 
动 设 置 好 所 有 的 GCG 环境 变量 ， 所 有 GCG 程序 调用 起 来 就 像 是 普 
通 UNIX 命令 , 但 要 熟 亚 命令 行 参数 的 意义 和 守法. HII S ELA, PC 
机 远程 登录 到 UNIX 工作 站 上 去 运行 GCG . 

2. 通过 SeqLab 图 形 用 户 界 面 ， 打 开 若干 使 用 GCG 程序 的 窗 
只 。 PC HH IP Ws EX 窗 吕 的 模拟 程序 ， 

3. 通过 网 络 在 Netscape 或 Internet Explorer 浏览 嚣 中 使 用 Se- 
qWeb U £t, WH GCG 中 的 一 批 核心 程序 . 

R-793 Peptool™ 程序 和 GenetoolTM 程序 是 Biotools 公司 提供 的 可 在 
任何 计算 机 平台 上 送行 的 集成 序列 分 析 软 件 . 公司 网 址 ; 
http://www.biotools.com 
其 中 Peptool 的 基础 是 加 拿 大 Alberta X3 A RE B8 HUP. UNIX 系统 
的 免费 软件 ， 描 述 见 : 

D. S. Wishart, “SEQSEE: a comprehensive program suite for protein 
sequence analysis", CABIOS (Bioinformatics) 10 (1994) 121 132. 
D. S. Wishart, "Contraiut multiple alignment using XALIGN”. 

CA BIOS (Bioinformatics) 10 (1994) 687 - 688. 

D. S. Wishart, “A platform independent graphical user interface for 
SEQSEE and XALIGN", CABIOS ( Bioinformatics) 13 (1997) 561 
562. 

R-794 InforMax 公司 的 VectorNTI 程序 ， 可 以 说 是 与 GCG RIT OLX 
对 比 的 一 套 小 马 玲 班 的 软件 ， 可 以 从 常用 载体 的 内 切 酶 位 点 设计 做 
到 基本 的 DNA 序列 分 析 . 全 部 程序 在 一 - 张 光 稚 E. 2 e) eph: 
http://www.infoxmaxinc.com/ 


R 795 DNATools 4 — £z &b FH DNA nz Fam vit Ferry, 35H) ) PC Hi 
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窗 系 统 . 它 虽 由 一 个 大 学 实验 室 研 制 .但 蓝 收 取 许 可 证 费用 . DU, 
Ul Hem 9| RLRE. 对 于 学 术 性 用 户 ， 它 价格 较 低 .而 三 有 可 以 
延长 的 四 个 月 试用 期 。 网址 ; 

http://www.crc.dk/dtmain/ 

R-796 GenTerpret 是 Rabbithutch 生物 技术 公司 所 发 展 的 核 骏 序列 自动 
解释 程序 . 它 用 SorFind 2.0 预测 编码 的 外 显 子 ， 用 RepFind 2.0 & 
找 重复 片段 ， 用 PromFind 2.0 预测 启动 子 和 CpG 岛 ， 并 有 图 形 接 
O. JEW: 
http://www.rabbithutch.com/ 

SorFind, RepFind 和 PromFind 三 个 程序 的 早期 版 本 ， 保 存 存 印 第 
安 那 大 学 的 档案 中 : 
ftp://iubio.bio.indiana.edu /molbio/ibmpc 


5.13.2 一些 公司 网 页 


生物 技术 、 基 因 工 程 和 生物 信息 公司 多 如 十 后 寿 笋 。 少数 公司 维护 
着 免费 的 公用 数据 库 和 其 他 信息 资源 , 多 数 公司 网 页 以 广告 营销 为 主 , 但 
从 其 一 般 介 绍 特别 是 与 公司 研究 成 果 有 关 的 出 版 物 目 录 ， 有 时 可 以 获得 
一 些 有 益 的 信息 . 下 面 殉 举 的 一 些 网 址 ， 多 系 我 们 偶然 遇见 、 顺 手记 下 。. 
是 否 入 选 , 与 公司 业绩 无 关 ， 也 绝 无 评价 或 推荐 之 意 . 已 经 在 前 一 小 节 介 
绍 商业 软件 时 提 到 过 的 公司 ， 也 不 青 重 复 . 

R-797 NEB 是 新 英格兰 生物 实验 公司 (New England BioLab) 的 缩写 . 
它 维护 着 限制 性 内 切 酶 和 申 基 化 酶 数据 库 REBASE [R-424] 及 和 蛋白 
Miaa E InBase (R-436] 。 据说 3096 已 知 的 限制 性 内 场 酶 是 在 
NEB 发 现 的 . NEB 也 是 限制 性 内 切 酶 和 许多 其 他 生化 产物 的 重 可 
供应 商 之 一 。 网址: 
http://www.neb.com/ 

R-798 Celera 公司 ， 册 原来 在 TIGR (R-156] 的 J. C. Venter 参与 组 织 、 
用 签 弹 法 进行 DNA 测序 ， 已 经 基本 测 完 果 蝇 的 基因 组 ， 正 在 人 类 基 
因 组 方面 与 国际 人 类 基因 组 计划 竞争 . 和 网址 : 
http://www.celera.com/ 

R-799 D'Trends 是 一 家 生物 信息 公司 。 网址 : 
http://www.d-trends.com/ 
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R-800 Net-ID, Inc. 是 一 家 生物 信息 软件 公司 , 它 县 前 的 主要 产品 HMM- 
pro2.2 (R-740] 对 于 学 术 界 仍 是 免费 的 ， 网址， 
http://www.netid.com/ 

R-801 Affymetrix 是 世界 上 最 大 的 DNA 芯片 公司 之 一 ， 其 科学 出 版 物 
目录 值得 参考 。 Wht: 
http://www.affymetrix.com/technology/papers.html 

R-802 NanoGen Inc. 是 -- 家 微 电 子 技术 与 分 子 生 物 学 结合 的 芯片 公 
司 。 网 页 上 一 些 与 公司 研究 成 果 有 关 的 出 版 物 目录 和 专利 简介 值得 
$35. Wm: 
http://www.nanogen.com/ 

R-803 Hyseq Inc. 是 使 用 杂交 法 的 一 家 DNA 芯片 公司 。 它 的 长 约 20 个 
碱 基 的 赛 核 苷 酸 片段 是 垂直 立 在 芯片 土 的 。 据 称 它 拥有 1 200 万 份 
DNA 样品 的 分 析 结 果 ， 90 万 个 部 分 或 完整 的 基因 序列 ， 已 经 找到 
35 000 个 基因 .网址 ， 
http://www.sbh.com/ 

为 了 出 售 基因 ， 它 最 近 又 建立 了 一 个 名 为 GeneSolutions 的 子 公 司 ， 
请 参看 : 
http://Gene.Solutions.com/ 

及 -804 InCyte 公司 最 近 改 名 为 InCyteGenomics , ix 3X Z5 39 2x 8] WE e 
LifeSeq 数据 库 中 有 大 量 人 类 基因 和 EST. 序列 . 它 提供 某 些 免费 信和 总 
服务 (LifeSeq Public) 以 促进 销路 。 网 址 : 
http://www.incyte.com/ 

它 经 营 的 一 种 集成 生物 信息 软件 叫做 Life Tools ， 并 有 一 个 生物 信息 
网 页 : 
http://www.incyte.com/Globe/bioinfo.html 

R-805 MSlI(Molecular Simulation, Inc.) 公司 发 展 了 大 量 结构 生物 学 、 大 
分 子 模拟 、 和 蛋白 质 工程 、 药 物 设计 等 方面 的 商业 软件 ， 包括 使 用 其 广 
的 三 维 分 子 模 拟 图 形 环 境 Insight II 软件 。 请 参看 网 页 : 
http://www.msi.com/life/index.html 
http://wwuw.msi.com/life/products/ 

insight/modules/Insight2.html 
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R-806 Ambion, Inc. 是 一 家 专门 提供 RNA 实验 分 析 工 具 的 公司 ， 它 发 
行 不 定期 的 电子 通讯 RNA FlashNotes ， 可 以 自由 订阅 . 网 址 : 
http://www .ambion.com/ 
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除了 公开 数据 库 和 免费 软件 ， 国 际 互 联网 上 还 有 大 量 其 他 生物 医学 
信息 资源 和 讨论 组 ， 以 及 电子 出 版 物 、 会议 消息 和 文集 、 讲 义 和 课 程 等 
3$. 下面 分 类 列举 一 些 网 址 . 


5.14.1 网 上 论坛 。 BIOSCI 新 闻 组 


BIOSCIAbionet 是 组 织 得 很 好 的 网 上 论坛 ， 它 又 分 成 一 百 多 个 专题 
新 闻 纠 ， 见 表 5.13 . 


BIOSCI 是 专业 生物 工作 者 共享 的 一 个 生物 学 论坛 , 不 是 业余 爱好 者 
的 谈天 空间 。 可 以 用 三 种 方式 之 一 参加 : 
R-807 最 方 使 的 办 法 是 进入 BIOSCI/bionet 论坛 的 网 页 : 
http://www.bio.net/ 
然后 选取 Access the BIOSCI/bionet News Groups . 
R-808 在 本 地 计算 机 上 安装 USENET 软件 ， 或 利用 浏览 器 已 经 配备 的 访问 
新 闻 组 功能 ， 它 可 以 替 用 户 组 织 管理 同 指定 的 新 闻 组 来 往 的 信息 . 
R-809 用 电子 邮件 订阅 和 参与 一 个 或 多 个 新 闻 组 .这 个 办 法 最 简单 ， 但 有 
不 少 缺 点 ， 必须 指名 订阅 特定 的 新 闻 组 ; 如 果 同 时 订阅 多 个 新 闻 组 ， 
来 售 同 其 他 电子 郝 件 一 起 随机 地 进入 电子 邮件 箱 ， 必 须 自 行 组 织 整 
理 ; 如 果 本 地 计算 机 的 电子 邮件 服务 出 现 故障 ,来 信 被 连续 退回 ， 新 
闻 组 就 会 自动 停 送 ， 必 须 重 新 订阅 ， 才 能 恢复 . 初次 订阅 前 ， 宜 先 发 
电子 邮件 到 : 
mailto: biosci-server@net .bio .Pet 
在 邮件 主体 中 写 一 个 字 lists ， 以 获得 当前 的 BIOSCI 专题 名 单 。 选 
定 专 题 listname 之 后 ， 在 下 一 封地 件 主 体 中 写 subscribe listname ; 
停止 订阅 时 写 unsubscribe listname 注意， 所 有 命令 都 要 写 在 邮件 
主体 中 ， 而 不 要 放 在 Subject a ill. 
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简称 
ACEDB-SOFT 
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Æ% 5.13 BIOSCI/usenet 新 闻 组 


AFCR 

AGEING 

AGROFORESTRY 

AIBS 

AMYLOID 

ARABIDOPSIS 

ASCB 

AUDIOLOGY 
AUTOMATED-SEQUENGCING 
BIOCAN 

BIOFILMS 

BIOFORUM 
BIO-INFORMATION-THEORY 
BIONAUTS 

BIONEWS 

BIO-JOURNALS 
BIO-MATRIX 
BIOPHYSICAL-SOCIETY 
BIOPHYSICS 
BIO-SOFTWARE 

BIO-SRS 

BIOTECHNIQUES 
BIOTHERMOKINETICS 
BIO-WW'W 
CARDIOVASCULAR-RESEARCH 
CELEGANS 

CELL-BIOLOG Y 
CHLAMYDOMONAS 
CHROMOSOMES 


, COMPUTATIONAL-BIOLOGY 


CSM 

CYTONET 
DEEPSEA 
DIAGNOSTICS 
DROSOPHILA 
ECOPHYSIOLOGY 


新 闻 组 地 址 
bionet.software.acedb 
bionet.prof-society.afcr 
bionet.molbio.ageing 
bionet.agroforestry 
bionet.prof-society.aibs 
bionet.neuroscience.amyloid 
bionet .genome.arabidopsis 
bionet.prof-society.ascb 
bionet.audiology 
bionet.genome.autosequencing 
bionet.prof-society.cfbs 
bionet.microbiology.biofilms 
bionet.general 
bionet.info-theory 

bionet .users.addresses 
bionet.announce 
bionet.journals.contents 
bionet.molbio.bio-matrix 
bionet.prof-society.biophysics 
bionet.biophysics 
bionet.software 
bionet.software.srs 
bionet.journals.letters.biotechniques 
bionet.metabolic-reg 
bionet.software.www 
bionet.biology.cardiovascular 
bionet.celegans 
bionet.cellbiol 
bionet.chlamydomonas 
bionet.genome.chromosomes 
bionet. biology.computational 
bionet.prof-society.csm 
bionet.cellbiol.cytonet 
bionet.biology.deepsea 
bionet.diagnostics 
bionet.drosophila 
bionet.ecology.physiology 
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LE cd 新 闻 组 地 址 
EMBL-DATABANK bionet.molbio.embldatabank 
EMF-BIO bíonet.ermf-bio 
FASEB bionet.prof-society.faseb 
FLUORESCENT-PROTEINS bionet.rmolbio.proteins.fluorescent 
FREE-RADICALS bionet.molecules.free-radicals 


G-PROTEIN-COUPLED-RECEPTOR 
GDB 
GENBANK-BB 
GENETIC-LINKAGE 
GENSTRUCTURE 

3LY COSCI 
GRASSES-SCIENCE 
HIV-MOLECULAR-BIOLOG Y 
HUMAN-GENOME-PROJECT 
IMMUNOLOGY 
INFO-GCG 
INSULIN-ACTION 
JOURNAL-NOTES 
METHODS-REAGENTS 
MICROBIOLOGY 
MOLECULAR-EVOLUTION 
MOLECULAR-MODELLING 
MOLECULAR-REPERTOIRES 
MOLLUSC-MOLECULAR-NEWS 
MYCOLOGY 
NAVBO 
NEUROSCIENCE 
N2-FIXATION 
P450 

PARASITOLOGY 
PEPTIDES 

PHOTOSYNTHESIS 
PLANT-BIOLOGY 
PLANT-EDUCATION 
PLANT-SIGNAL-TRANSDUCTION 
POPULATION-BIOLOLG Y 


bionet.motlbio.proteins.7tms.r 
bionet.molbio.gdb 
bionet.molbio.genbank 
bionet.molbio.gene-linkage 
bionet.genome.gene-structure 
bionet.glycosci 
bionet.biology.grasses 
bionet.imolbio.hiv 
bionet.molbio.genome-program 
bionet.immunology 
bionet.software.gcg 
bionet.cellbiol. insulin 

bionet .journals.note 
bionet.molbio.methds-reagnts 
bionet.microbiology 
bionet.molbio.evolution 
bionet.molec-rnodel 
bionet.molecules.repertoires 
bionet.rnolbio.moliuscs 
bionet.mycology 
bionet.prof-society.navbo 
bionet.neuroscience 
bionet.biology.n2-fixation 
bionet.molecules.p450 

bionet. parasitology 
bionet.molecules.peptides 
bionet.photosynthesis 
bionet.plants 
bionet.plants.education 
bionet.plants.signaltransduc 
bionet.population-bio 
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表 5.13 (£59) 


简称 

PRENATAL-DIAGNOSTICS 
PROTEIN-ANALALYSIS 
PROTEIN-CRYSTALLOGRAPHY 


新 闻 组 地 址 
bionet.diagnostics.prenatal 
bionet.molbio.proteins 
bionet.xtallography 


PROTISTA bionet.protista 
PSEUDOMONADS bionet.organisms.pseudomonas 
RAPD bionet.molbio.rapd 
RECOMBINATION bionet.molbio.recombination 
SCHISTOSOMA bionet.organisms.schistosonia 
SCIENCE-RESOURCES bionet.sci-resources 

STADEN bionet.software.staden 


STRUCTURAL-NMR 
SYMBIOSIS-RESEARCH 


bionet.structural-nnic 


bionet.biology.symbiosis 


TIBS bionet .journals.letters.tibs 
TOXICOLOGY bionet.toxicology 
TROPICAL-BIOLOGY bionet.biology.tropical 
URODELES bionet.organisrmns.urodeles 
VECTOR-BIOLOG Y bionet.biology.vectors 
VIROLOGY bionet.virology 

X-PLOR bionet.software.x-plor 
YEAST bionet.molbio.yeast 
ZBRAFISH bionet.organisms.zebrafish 


5.14.2 网 上 医学 信息 资源 


本 手册 以 生物 学 特别 是 分 子 生物 学 信息 资源 为 主 ， 关 心 医学 、 药 学 
信息 的 读者 可 参阅 [R-14] 一 书 所 列 信息 。 这 里 只 介绍 几 个 网 站 ， 从 他 位 
出 发 可 以 链接 到 大 量 有 关 网 址 . 

R-810 MedMatrix 是 集 临 床 医学 信息 大 成 的 一 个 网 页 ， 可 以 在 注册 后 免 
RA. 通过 MedMatrix 也 可 以 访问 许多 新 闻 组 和 论坛 。 网址: 
http://www.medmatrix.org/ 

R-811 北京 生物 技术 和 新 医药 产业 促进 中 心 主办 的 “新 生命 - 北京 生物 医 
药 在 线 "， 是 一 个 值得 注意 的 中 文 网 站 . 这 里 除 新 闻 外 ， 还 和 有 有 医药 资 
源 导 航 信息 和 一 些 可 下 载 的 通用 软件 . 网址 : 
http://www.newlifebp.org.cn/ 
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5.14.3 网 上 期 刊 和 出 版 杜 


网 上 电子 期 刊 有 两 大 类 ， 一 是 没有 印刷 本 的 “ 纯 ” 电 子 刊 物 ， 二 是 与 

Ep gj Az [8] 2b üS B TR. 两 者 数 上 昌都 在 增加 ， 尤 以 后 者 为 最 . 预计 不 久 的 将 

来 ,每 一 种 重要 学 术 期 刊 都 会 有 电子 版 . 然而 ， 多 数 刊 物 规定 ， 只 有 印刷 

版 的 订户 才能 免费 阅读 电子 版 和 下 载 文章 . 生命 科学 期 刊 “ 上 了 网” 也 越 来 

越 多 , 查找 网 上 “在 线 ” (OnLine) 刊物 的 方便 办 法 ， 是 访问 斯 坦 福 大 学 

图 书馆 的 名 为 High Wire 的 网 上 服务 [R-812] . 

R-812 斯 坦 福 大 学 图 书馆 HighWire 服务 ， 网 址 : 
http:/ /intl.highwire.org/ 

这 里 有 一 张 刊 物 名 单 .和 逐一 说 明 是 摘要 还 是 全 文 上 网 ,是 全 免费 还 是 
对 一 定时 间 之 前 的 过 期 刊 免费 ， 同 时 也 列 出 各 刊物 的 网 址 . 
下 而 列举 一 些 重要 凡 物 的 电子 版 。 

R-813 美国 《科学 》 (Science) 周刊 。 在 我 国 自然 科学 基金 委员 会 、 科 技 
部 、 教 育 部 和 中 国 科 学 院 资 助 下 ， 凡 具有 .cn 域名 的 中 国 几 户 可 以 
自由 阅读 其 网 络 版 ， 即 Science-on-Line 。 网址 : 
http://china.sciencemag.org/ 
事实 上 ， 网 络 版 比 纸 面 版 的 内 容 更 丰富 ， 例 如 可 通过 “ 趟 链接 ”访问 
引文 ， 了 解 引用 情况 . 特别 是 生命 科学 方面 的 某 些 文章 加 存 “ 超 注 
释 ” (hypernote) ， 能 帮助 读者 迅速 从 网 上 追溯 引文 和 掌握 有 关 背 景 
知识 。 

R-814 根据 中 国 科学 院 与 美国 科学 院 的 协议 ， 凡 具有 .cn 域名 的 中 国 读 
者 可 自由 阅读 或 下 载 美 国 科学 院 院 报 (Proceedings of the National 
Academy of Sciences USA ， 简 称 PNAS) ， 否 则 只 能 免费 阅读 18 个 
月 之 前 的 过 期 刊 . 网 址 ; 
http://intl.pnas.org/ 

R-815 英国 《自然 》 (Nature) 周刊 ， 可 以 免费 订阅 由 电子 邮件 送 达 的 每 其 
目录 ， 请 查询 : 
http://www.nature.com/ 或 
http://www.natureasia.com/ 

R-816 MMBR, 《微生物 分 子 生物 学 评论 》 (Microbiology and Molecular 
Biology Review) ， 十 一 个 月 之 前 的 过 刊 可 免费 阅读 或 下 载 . 网 址 : 
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http://intl-mmbr.asm.org/ 
于 面 一 些 杂 志 的 网 络 版 是 完全 免费 阅读 的 . 

R-817 Protein Science ，《 蛋 白质 科学 》: 
http://www.proteinscience.org/ 

R-818 BMJ，《 不 列 颠 医学 杂志 》 (British Medical J.) : 
http://www.bmj.com/ 

R-819 AJP ，《 美 国生 理学 杂志 》 的 《教育 》 分 卷 (Am. J. Phisiology. 
Adv. in Physiol, Ed.) : 
http://intl-ajpadvan.physiology.org/ 

AJP 的 其 他 分 卷 只 能 免费 阅读 一 定时 间 之 前 的 过 期 刊物 . 

R-820 J. Clin. Invest. , «Wa PE Eo Ae b»: 
http://www.jci.org/ 

R-821 ESP 是 一 个 网 上 电子 学 术 出 版 社 (Electronic Scholarly Publishing) 
组 织 ， 它 提供 可 以 免费 下 载 的 遗传 学 经 典 文 献 . 它 的 目录 从 1798 年 
马尔 萨 斯 的 人 口 论著 作 、 1865 FEWR 的 植物 杂交 论文 ( 德 文 原 
文 和 英 译本 ) ， 到 包括 摩尔 根 实验 室 在 内 的 20 世纪 上 半 叶 的 重要 责 
献 。 当 然 还 有 达尔 文 (Charles Darwin) 的 著作 。 有 些 文献 在 中 国 原 是 
难得 一 赌 的 . 我 们 奉 劲 学 者 访问 下 面 的 网 址 : 
http://www.esp.org/ 


5.14.4 会 议 消 息 和 会 议 文集 


许多 生物 信息 中 心 的 网 页 上 都 有 会 议 消息 ， 有 些 系 列 会 议 有 专门 网 
页 ， 某 些 会 议 文集 的 电子 版 本 可 以 免费 下 载 . 我 们 列举 一 些 网 址 ， 
R-822 北京 大 学 生物 信息 中 心 的 网 页 上 ， 有 较为 丰富 的 会 议 消 息 . 请 看 : 
http://www.cbi.pku.edu.cn/conferences.html 
R-823 在 TIGR 研究 所 [R-156] 的 网 页 上 可 以 青 到 将 由 该 所 组 织 的 一 些 会 
议 的 消息 . 网址; 
http://www.tigr.org/conf/ 
R-824 在 净 泉 港 实验 室 CSHL [R-159] 的 网 页 上 也 有 会 议 消 息 : 
bttp://nucleus.cshl.org/meetings/ 
R-825 PSB 年 会 ,从 1996 开始 ， 每 年 1 月 在 夏威夷 举行 太平 洋 生物 计算 
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研讨 会 (Pacific Symposium on Biocomputing ， 简 称 PSB). 它 比 较 
注重 算法 .从 过 去 的 PSB1996 到 将 要 召开 的 PSB2001 ， 均 可 在 加 州 
大 学 旧金山 校区 的 网 址 查看 : 

http://www.cgl.ucsf.edu/psb/ 

上 历届 会 以 文 集 都 由 新 加 坡 世 界 科 学 出 版 社 (World Scientific Publish- 
ing Co.) 印行 . 大 部 分 论文 也 收入 相应 电子 文集 ， 可 以 从 下 面 的 网 址 
FR (XX=96 到 00 ， 表 示 1996 到 2000) : 
http://www-smi.stanford.edu/projects/helix/psbXX/ 


R-826 ISMB ， 即 分 子 生 物 学 中 的 智能 系统 (Intelligent Systems for Molec- 


ular Biology) 国际 会 议 ， 自 1993 年 以 来 已 每 年 举行 ， 2000 年 举行 了 
F8. 2001 年 的 第 9 届 会 议 将 在 哥本哈根 举行 .这 是 着 重 研讨 算 
法 的 会 议 ， 有 不 少 序 列 分 析 和 数据 库 搜索 方面 的 文章 , 特别 是 神经 网 
络 和 隐 马 可 夫 链 模型 的 讨论 . 会 议 文集 由 AAAI Press 出 版 . 历次 会 
议 概况 可 参阅 网 页 : 

http://ismbOO.sdsc.edu/prev.mtgs.html 

http://www.aaai.org/ 


R-827 RECOMB , 计算 分 子 生 物 学 国际 年 会 (Annual International Con- 


ference on Computational Molecular Biology) ， 自 1997 年 起 举行 . 第 
4 届 即 RECOMB2000 已 在 东京 开 过 . 前 几 届 的 会 议 文集 已 收入 美国 
计算 机 协会 的 数字 化 图 书馆 (ACM Digital Library) .虽然 下 载 文章 
需 付 费 ， 但 可 免费 读 取 目录 ， 网 址 ; 
http://www.acm.org/pubs/contents/proceedings/ 


R-828 BOSC, 2000 年 首次 举行 的 生物 信息 学 公开 源 程 序 会 议 (Bioinfor- 


matics Open Source Conference 2000) Æ 1999 年 BioPeri99 2 iX t5 4k 


续 ， 有 可 能 发 展 成 一 个 系列 会 议 。 请 参看 网 址 : 
http://ismbOO.sdsc.edu/bosc2000/ 


R-829 RNA 国际 会 议 ， 1997 和 1998 的 文集 见 : 


http://www-smi.stanford.edu/people/altman/rna97.html 


http://www.wisc.edu/union/info/conf/rna/rna.html 


R-830 STRUBE , 欧洲 结构 生物 学 会 议 (Structural Biology in Europe) , 


请 参看 网 址 : 
http://www .biodigm.com/strube.htm 


240 5# m5. 软件 和 算法 


R-831 DDPS ， 药 物 发 现 与 蛋白 质 科学 会 议 (Drug Discovery and Protein 
Science) ， 亦 请 参看 STRUBE [R-830] 的 网 页. 

R-832 TIMMeC ， 分 子 模 氢 电子 会 议 (The Molecular Modeling E-Confer- 
ence) ， 在 全 球 有 多 处 镜 象 ， 可 从 以 下 网 址 开始 查阅 : 
http://fcindy5.ncifcrf.gov/tmmec/ 


5.14.5 讲义 和 课程 


R-833 Biorithms 是 ICGEB [R-152] 的 S. Pongor 为 几 次 生物 信息 学 讲习 
班 所 写 讲义 的 电子 版 的 总 题目 ， 详 见 : 

S. Pongor, "Algorithms for molecular biology" (1998) 
Wink 
http: //wwu.icgeb.trieste.it/net/couxseware/ 

R-834 北京 大 学 生物 和 信息 中 心 在 1999 年 4 月 与 ICGEB 合作 举办 了 分 子 
生物 学 数据 库 和 分 析 工 具 的 国际 研讨 会 和 讲习 班 。 有 3 个 报告 保存 
在 网 页 上 : 
http://www.cbi.pku.edu.cn/meeting/icgeb/talk.html 
这 些 报告 是 : 

1. Ed. Wingender, “Database modelling of gene regulation". 
2. Bruno Gaeta, "Database similarity search". 
3. Bruno Gaeta, “Patterns, profiles, and motif search". 

R-835 法 国 Rouen 大 学 C. Charras 和 T. Lecroy 编写 的 《序列 比较 讲 
X? ， 可 从 网 址 
http://www.dir.univ-rouen.fr/'"charras/seqcomp/ 

下 载 文件 segcomp.ps , 

R-836 FASTA 的 作者 W. R. Pearson 本 人 关于 其 3.0 新 版 的 讲义 ， 可 在 多 
个 网 点 查看 . 例如 : 
http://www.techfak.uni-bielefeld.de/ 

bcd/Lectures/pearson3.html 
http://www.biotech.ist.unige.it/ 

bcd/Lectures/pearson3.html 
http://merlin.mber.bcm.tmc.edu:8001/bcd/ 

bcd/Lectures/pearson3.html 
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这 些 URL 都 属于 自然 科学 虚拟 学 校 (Virtual School of Natural Sci- 
ence ， 简 称 VSNS) 的 生物 计算 部 (BioComputing Division ， 简 称 
BCD). 从 所 列 URL 往 上 查 ， 还 可 以 找到 其 他 电子 课程 的 记录 . 

R-837 VSMS ， 即 医学 科学 虚拟 学 校 (Virtual School of Molecular Sci- 
ences) ， 其 网 址 也 值得 访问 : 


http://wwuw.vsms.nottingham.ac.uk/vsms/ 


5.14.6 一 些 有 益 的 个 人 网 页 


R-838 Amos’ WWW Links Page , 瑞士 的 Amos Bairoch 汇编 的 WWW 
链接 地 址 清单 ,包含 一 千 多 处 网 址 . 其 中 不 少 本 书 前 面 已 经 提 及 . 这 
个 清单 的 好 处 ， 是 已 经 分 门 别 类 ， 便 于 查询 .请 参看 ， 
http://www.expasy.ch/alinks.html/ 
北京 大 学 生物 信息 中 心 有 镜 象 ， 
http://expasy.pku.edu.cn/amos.www link.html 

R-839 Pedro 网 页 ， 是 Pedro M. Coutinho 当 研 究 生 时 建立 的 ， 由 于 内 容 
比较 丰富 ， 曾 经 被 广 为 引 用 ， 可 惜 自 1996 年 初 以 来 更 新 不 及 时 . 网 
A: 
http://www.public.iastate.edu/^pedro/ 

R-840 Willy 网 页 ， 搜 集 了 一 批 与 生物 学 有 关 的 超 链 接 。 网址: 
http://genomei.bio.bnl.gov/ 

R-841 Ranst 网 页 ， 由 瑞典 的 Marc van Ranst p. Bh: 
http://www.ng.hik.se/"nstrna/mvr.htm 

R-842 美国 洛克 菲 勒 大 学 统计 基因 组 学 实验 室 李 问 天 (Wentian Li) 的 网 页 
上 ,除了 前 面 已 经 提 到 的 微 阵列 文献 目录 [R-786] , 还 有 很 多 有 益 的 
信息 ， 特 别 是 关于 DNA 序列 中 核 音 酸 关 联 的 研究 情况 ,网 址 : 
http://linkage.rockefeller.edu/w1i/ 
李 问 天 网 页 的 许多 内 容 在 北京 大 学 生物 信息 中 心 [R-166] 有 镜 象 . 

R-843 石家庄 华北 制药 集团 金 坦 生 物 技 术 开 发 有 限 公 司 的 谈 杰 建立 了 一 个 
生物 、 化 学 免费 软件 网 页 . 许多 国际 上 的 自由 软件 都 已 下 载 保存 在 那 
里 ， 并 有 一 个 总 自 录 供 查询 . 网 址 : 
http://wwwu.ncpcgt.col.com.cn/zhigong/tanjie/index.html 
有 时 不 能 直接 访问 这 个 子 目录 ， 要 从 一 级 主页 经 “职工 园地 ”进入 . 
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5.14.7. 法律、 伦理 和 杜 会 影响 


大 类 基因 组 计划 的 实施 ， 引 起 了 许多 伦理 道德 、 法 律 、 社 会 问题 ， 
即 所 谓 ELSI (Ethical, Legal, and Social Implications); 还 有 一 个 生物 技 
术 的 安全 性 ， 都 是 公众 关心 的 问题 . 通过 互联 网 向 社 会 进行 寅 传 ， 协 助 学 
校 教 师 提 高 基因 和 生物 知识 的 教育 水 平 ， 是 生物 信息 中 心 不 可 忽视 的 责 
任 。 有 关 信 息 可 参考 以 下 网 址 和 它们 的 链接 ; 

R-844 BINAS 生物 安全 服务 ， 即 生物 安全 信息 网 与 咨询 服务 (Biosafety 
Information Network and Advisory Service) ， 是 联合 国 工 业 发 展 组 
织 (UNIDO) 提供 的 服务 ， 它 反映 全 球 关于 生物 技术 的 各 种 法 规 的 状 
况 ， 可 以 通过 北京 大 学 生物 信息 中 心 [R-166] 网 页 上 的 UNIDO 链接 
XE A. 

R-845 GeneLetter B F X P3 fii: 
http://www.geneletter.org/ 

R-846 美国 橡树 岭 国 家 实验 室 的 ELSI 链接 : 
http://www.ornl.gov/hgmis/resource/elsi.html 

R-847 美国 国家 基因 资源 中 心 NCGR (R-135] 的 遗传 学 与 公众 网 页 : 
http://www.ncgr.org/gpi/index gpi.html 

R-848 美国 堪萨斯 大 学 医学 中 心 的 基因 教育 中 心 (Genetic Education Cen- 
ter ， 简 称 GEC) 有 一 个 面向 广大 公众 的 网 页 : 
http://www .kumc .edu/gec/ 

请 参看 [R-616] . 

R-849 美国 华盛顿 大 学 基因 中 心 设 有 针对 中 学 生物 学 教师 的 “ 遍 中 人 类 基 
因 组 计划 ” (High School Human Genome Project , 简称 HSHGP). 
除了 一 般 人 信息， 还 为 教师 准备 了 程序 模块 、 虚 拟 测序 等 。 网 址 : 
http://hshgp.genome.washington.edu/ 


85.15 ”生物 信息 资源 的 近期 发 展 动向 
我 们 在 这 本 手册 中 已 经 列举 了 上 千 个 网 址 、 这 当然 不 能 覆盖 所 有 重 


要 的 生物 信息 资源 . 在 结束 全 书 之 前 , 再 简单 讨论 一 些 生物 信息 资源 的 近 
期 发 展 动向 . 
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第 一 ， 各 种 软件 和 数据 库 的 集成 化 .这 在 第 4 章 和 第 5 章 中 已 经 多 
KEF, TAAR, 

第 二 ， 数据库 和 软件 系统 集成 化 的 统一 标准 . 我 们 只 提 一 下 CORBA 
和 面向 对 象 这 两 个 互相 关联 的 问题 。 

R-850 CORBA Hf Common Object Request Broker Architecture ， 力 是 
国际 对 象 管理 协作 组 (Object Management Group ， 简 称 OMG) 制 
TW, E OOP 对 象 与 网 络 接 口 统一 起 来 的 一 套 跨越 计算 机 、 操 作 系 
统 、 程 序 语言 和 网 络 的 共同 标准 . OMG 的 网 址 是 : 
http://www.omg.org/ 

CORBA 标准 的 议 谋 本 见 : 

OMG €, «CORBA : 系统 结构 , 原理 和 规范 》, 电子 工业 出 版 社 ， 
2000 . 

其 实 ，CORBA 并 不 是 专 为 生物 学 制定 的 , 由 于 历史 原因 ， 生物 数据 
库 的 组 织 方 式 多 种 多 样 ， 而 WWW 只 处 理 超 文本 文件 . 为 了 各 种 应 
用 程序 能 方便 地 经 互联 网 联接 各 种 数据 库 ， 殉 洲 国家 已 经 决定 采纳 
CORBA 的 协议 及 其 界面 定义 语言 (Interface Definition Language , 
简称 IDL) 作为 共同 标准 . 详情 请 参看 EBI[R-131] 的 网 页 . 目前 已 经 
纳入 这 个 框架 的 数据 库 有 EMBL [R-211] 核酸 序列 库 、 PIR (R-404j 
HAME., SWISS-PROT [R-401] 蛋白 序列 库 、MSD [R-443], GDB 
[R-283] 、 TRANSFAC [R-219] 、 RHdb [R-281] 、 p53 [R-324] 等 . 
关于 CORBA 在 生物 信息 学 方面 的 应 用 ， 还 请 参看 新 近 建 立 的 网 页 
[R-61] : 

http://biocorba.org/ 

R-851 ACeDB ， 即 基于 面向 对 象 的 程序 设计 (OOP) 思想 的 线虫 数据 库 
本 身 ， 是 一 套 可 以 用 于 其 他 生物 数据 库 的 自由 软件 .目前 许多 基因 
组 测序 计划 均 采 用 ACeDB 作 数 据 管理 系统 .例如 GrainGenes [R- 
572]. MsqDB [R-375]. TreeGens [R-583}, RiceGenes (R-571] 、 
CSNDB [R-558] ， 以 及 中 国 科 学 院 遗 传 研究 所 基因 中 心 进行 的 泉 生 
热 袍 菌 ( Caldotoga fontana) 的 基因 组 测序 计划 . ACeDB 的 简单 描述 
可 参看 [R-17] 一 书 的 第 13 章 和 [R-21] 一 书 的 第 22 章 . 数据 库 本 身 
可 以 从 许多 网 址 下 载 ， 
http://alpha.crbm.cnrs-mop.fr/ 
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ftp://lirmn.lirmn.fr (/pub/acedb/) 
ftp://ftp.sanger.ac.uk (/pub/acedb/) 
ftp://cele.mrc-lmb.cam.ac.uk (/pub/acedb/) 
ftp://ncbi.nlm.nih.gov (/repository/acedb/) 
还 有 一 批 从 ACeDB 派生 出 来 的 软件 ， 主 要 是 各 种 界面 ， 例 如 : 

1. Web 界面 Webace ， 详 见 网 址 : 
http://webace.sanger.ac.uk/ 

2. Java 界面 Jade, HA: 
L. Stein, “Jade: an approach for interconnecting bioinformatics data- 
bases", Gene 209 (1998) 39 — 43. 

3. Perl 界面 AcePerl, EL AQL, WinAce 5$, 
安装 和 使 用 ACeDB 的 许多 经 验 ， 可 以 向 以 下 网 址 或 新 闻 组 查询 ， 
http://probe.nalusda.gov:8000/acedocs/acedbfqa.html 
http://www.bio.net:80/hypermail/ACEDB/ 
ftp://rtfm.mit.edu 
访问 /pub/usenet/news.answers/acedb-faq., 
mailto: mail-serverfrtfm.mit.edu 


news: bionet.softuware.acedb 


第 三 ， 知 识 环 境 (Knowledge Environment ， 简 称 KE) 的 建设 .这 里 


只 举 一 个 刚刚 开始 的 实验 系统 . 
R-852 STKE 信号 转 导 知识 环 境 是 由 美国 《科学 周刊 和 斯 坦 福 大 学 图 


书馆 共同 建立 的 第 一 个 网 上 知识 环境 .不 同 于 刊物 上 的 综述 文章 ， 
这 里 由 专家 狭 写 的 总 结 文 章 处 于 经 常 更 新 之 中 . 例如 ,对 发 育 过 程 重 
要 的 Wnt 转 导 途 径 ， 此 网 页 上 有 华盛顿 大 学 Randall Moon 提供 的 
知识 . 用 户 可 就 一 般 情 况 和 具体 物种 、 组 织 或 细胞 类 型 两 个 层次 提出 
iij. 具体 到 Wnt ,还 可 参看 Wnt 网 页 [R-430] 。 STKE 的 网 址 : 
http://www.sStke.org/index.html 


第 四 , 在 统一 标准 下 群策群力 发 展 自 出 生物 信息 软件 的 努力 . 例如 : 


R-853 EMBOSS 是 英国 Sanger 中 心 正 在 实现 中 的 欧洲 分 子 生 物 学 开放 


软件 系统 . 这 是 一 套 基 于 UNIX 命令 行 的 ,具有 统一 风格 .不断 发 展 扩 
大 的 程序 包 . 其 长 远 目标 是 为 学 术 界 建立 高 质量 的 、 种 类 齐全 的 免费 
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软件 系统 ， 可 以 按照 GNU [R-62] 自由 软件 协议 享用 . 除了 EMBOSS 
小 组 自己 编写 的 程序 ， 它 也 欢迎 各 国学 者 按 同 样 的 风格 体例 做 出 页 
献 。 由 于 是 公开 的 免费 系统 ， 它 也 可 能 把 许多 现存 的 自由 软件 集成 
进去 . 现在 EMBOSS 系统 中 已 经 有 一 批 可 以 使 用 的 程序 ， 包 括 本 书 
前 面 提 到 过 的 BLAST [R-631], 、 Blixem[R-647] 、 dotter[R-749] 、 
Gap4[R--690] , Phrap[R-691] 等 程序 ， 详 见 : 
http://www.sanger.ac.uk/Software/EMBOSS/ 

目前 试 运行 的 3 版 本 ， 可 以 下 载 : 

ftp://ftp.sanger.ac.uk (/pub/EMBOSS/) 

3x £F EMBOSS-0.0.4.tar.Z . 

最 后 、 但 可 能 是 最 重要 的 动向 之 一 ， 是 如 何 发 展 对 于 用 户 透 明 的 获 

取 网 上 资源 的 系统 ， 妈 不 必 关 心 URL 而 方 使 、 直接 地 联接 到 信 乱 源 的 手 

段 . 请 参看 : 

R-854 TAMBIS (Transparent Access to Multiple Biological Information 
Sources) yb XJ, Bp £ Re^E $9 [5 EL EUR B US BI AK, ice o [N 88 foL TS 
大 学 生物 科学 和 计算 科学 两 个 学 院 正 在 合作 进行 的 项 目 。 它 的 最 终 
目标 ， 是 使 用 户 只 通过 一 个 URL ,访问 全 部 WWW 上 的 相关 信息 . 
请 看 网 址 : 
http://www.cs.man.ac.uk/mig/tambis/ 

R-855 ISYS 是 美国 国家 基因 资源 中 心 NCGR [R-135] 正在 发 展 的 一 个 软 
件 平 台 ,， 它 具有 网 上 上 导航、 浏览 、 视 象 化 和 进行 分 析 的 功能 ， 帮 助 几 
户 利用 序列 、 基 因 图 谱 、 代 谢 途 径 、 基 因 表 达 等 各 方面 的 数据 库 和 应 
用 程序 . 这 个 系统 基本 上 用 Java 语言 编写 ,但 是 在 用 户 代 埋 服务 器 
和 数据 库 以 及 应 用 程序 服务 器 之 间 、 保 证 了 与 CORBA (R-850] 接口 
协议 的 兼容 性 。 2000 年 8 月 ， 为 软件 发 展 人 员 提 供 的 ISYS 核心 程 
序 已 经 可 以 下 载 ， 但 为 最 终 用 户 服务 的 版 本 要 丕 等 一 段 时 间 .。 ISYS 
系统 对 纯 学 术 用 户 免费 ， 详 情 请 参看 网 址 ; 
http://www.ncgr.org/research/isys/ 

TAMBIS 计 节 比较 伍 重 数据 库 端 的 界面 ， 而 ISYS 系统 更 着 眼 于 用 
户 端的 功能 . 因此， 从 目前 的 描述 判断 ， 这 两 套 系统 在 相当 程度 上 将 是 互 
补 的 . 


3'U'TR 区 4B, 97 

S'UTR 区 47, 96, 97 

入 噬菌体 54 

108a RNA X, tmRNA 96 
16SMDB 数据 库 98 

23SMDB 数据 库 93 

2D-PAGE HAE HB Ek 57, 132 
3Dee 数据 库 141 

3d.ali 数据 库 144 

5S rRNA 数据 库 100 


A. thaliana WR JF 39, 126 
A 型 血 友 病 156 
A Aindex 数据 库 137 


AARSDB 酰 氨基 tRNA 合成 酶 数据 
库 98 


ANT 程序 212 

ACeDB 数据 库 121 

ACeDB 数据 库 软件 243 
AcePerl. ACeDB 的 Per! 界面 244 
ACTIVITY 数据 库 101 
Aegilops My Y-RK 166 
Affymetrix 公司 232 

AgDB 数据 库 163 

AGIS 信息 系统 162 

A&gNIC 农业 网 络 信息 中 心 163 
AGR 拟 南 芥 基因 组 资源 126 
ALFRED 数据 库 155 
alignment 联 本 175 

ALU 数据 库 89 
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AMAS 程序 包 201 

Ambion 公司 232 

AMMSnic 网 络 信息 中 心 70 
AMrmtDB 数据 库 92 

Amos 的 链接 网 页 241 
amylopectin 支 链 淀 粉 40 
amylose 直 链 淀粉 40 
Androgen 数据 库 154 
anonymous ftp 无 记名 ftp 30 
APAN 亚太 先进 网 ?1 
APBionet 亚太 生物 信息 网 67 
apoptosis È 38 

AQL 界面 244 

archaea 古 细 基 37 
architecture 构架 140 
ARCHIVE 数据 库 130 
Ark(7j Fr) 系统 163 

ARS 农业 研究 服务 处 162 
Artemis 软件 211 

ASDB 数据 库 93 

ASN.1 格式 75 

ASTRAL 教 据 库 141 

ATCC Xi BUM ERAR PO 109 
AiDB 数据 库 126 

Atlas 数据 库 156 

ATP 腺 三 41 

Avena WER 166 

Axeldb 数据 库 152 


B. bubalis 水 牛 168 
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B. subtihs Mf ZEE ER 118 
B. taurus 咎 168 

B 7n 4 156 

BAC Ends rig 110 

BAC 图 应 数据 库 110 

BAC 载体 55, 58, 119 
bacteriophage ME Bk 38 
Banklt & 4 229 

barleydb 数据 库 163 

Bayes statistics 风 叶 斯 统计 182 
BBRP 计划 105 

BCGD 数据 库 157 

BCM 服务 器 200 

beans 豆 类 166 

belvu 程序 202 

BEND 程序 219 

BEND-TRI 程序 219 

BestFit 程序 229 

BIMAS 生物 信息 和 分 子 分 析 部 67 
BINAS 牛 物 安全 服务 242 
BioABACUS 数据 库 170 
BioBase 丹麦 人 类 基因 组 研究 中 心 66 
BioCatalog 救 据 库 月 录 172 


Biocatalysis/Biodegradation 数据 库 
162 


BioCORBA 组 织 17 
Biolmage 数据 库 149 
Bioinformatics 期 判 6 
BioJava 组 织 17 
BioMagResBank 数据 库 139 
biomednet 网 173 

BioPerl £8 Z1 17 

BioPython 组 织 17 
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BlOSCI/bionet 网 上 论坛 233 
BioSino 数据 库 86 

BioSino 网 站 71 

BioXml 组 织 17 

BLAST 程序 229 

BLAST 服务 184, 221 

BLITZ 服务 198 

Blixem 程序 197 

BLOCKS 数据 库 145 
BLOCKS. 数据 库 146 
BLOSUM R 178 

BMC 起 典 生 物 医学 中 心 65 
BMRB Hj BioMagResBank 139 
BNE 布鲁克 海 文 转 家 实验 宝 69 
Body Map 数据 库 152 

bootstrap HH ?^?X 200, 206 
BOSC 会 议 239 

BovBase ^-3& A PH iff S H5 Hé. 168 
BovGBASE ^E E EJ 6 PE 168 
Bovmap 牛 基 因 图 谐 数据 库 168 
BOXSHADE 程序 201 
BrassicaDB 数据 库 163 
BRENDA 数据 库 131 

browser 浏览 器 22 

Buffmap K4 35 R E i $13 IW. 168 
bytecode F $585 16 


C. elegans. 秀丽 线虫 38 

C. hircus. 山羊 168 

Clycine maz K x 166 

CABIOS MÀ fJ 6 

Caldotoga fontana RESO SI 243 
CancerWeb WAFER pi 169 

Candida 念珠 菌 121 


CAOS/CAMM 见 CMBI 66 
CAP 程序 209 

CarbBank 数据 库 148 

Carolus Linnaeus Pbkz* 36 
CASP 结构 预测 评估 221 

cat 外 163 

CATH JR [175 5r 3E Hg 140 
CatMap Xi 3E EN PEL E 3 18 He. 168 
cattle 4- 3€ 163 

CBI 北京 大 学 生物 信息 中 心 70 
CBIT 中 心 228 

CBS 上 丹 妻 生 物 序 列 分 析 中 心 69 
CD40LBASE 数据 库 155 
cDNA H th DNA 50 

Celera 2t iij 231 

cellulose £f t% 40 

CENSOR 3fiER 187 
central dogma 中 心 法 则 45 
CEPH 基因 型 数据 库 110 
CEPH 法 国人 类 多 态 性 中 心 110 
CFTR 数据 库 158 

CHGS 中 心 105 

chicken 3$ 163 

ChickGBASE 数据 库 167 
Chime EF 225 

chitin 7E € fli 40 

Chomsky, N. 183 

CIB 日 本 信息 生物 学 中 心 104 
CINEMA 程序 201 

Circles 程序 230 

cíeacting Mist fF 90 
ClanCards 文件 134 

clans 宗 训 134 
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class f$ 36 

class 类 140 

clone WB 54 

ClustalW 程序 200 

ClustalX 程序 201 

clustering X Æ 204 

CMBI 荷兰 生物 信息 中 心 66 

CMBE/BJMU 北京 大 学 医学 部 生物 
信息 网 页 TO 

Cn3D 程序 225 

codon #4 F 44 

COG 数据 库 150 

coiled coil 卷曲 螺旋 52. 221 

COILS 服务 器 221 

collagen 胶原 43 

collagen 数据 库 154 

Compare 程序 229 

COMPEL 数据 库 90 

Consed 程序 209 

consensus sequence (XA FE il 114 

CORBA 协议 243 

CorePromoter 程序 218 

cosmid Wf 54 

cottonDB 棉花 数据 库 166 

CpG $ 23) 

CpGlsie 数据 库 111 

Cre 转基因 数据 库 124 

CropNet 英国 谷物 网 163 

CSD 数据 库 139 

CSHL 美国 冷泉 港 实验 室 5 

CSNDB 数据 峰 162 

CURVATURE 程序 220 

CUTG 数据 库 86 


250 * 
CyanoBase 数据 库 119 DOE 美国 能 源 部 103 
cyctic fibrosis SEYE tE% 158 DogMap 155i D Bg it S6 IE MC 168 
DOGS WAHR CIR PE 114 
D. melanogaster. $ 122 domain name JE X 19 
D'Trends 公司 231 domain £&füfE 51, 137. 145. 147, 218 
D-loop + WII. 92 domain 数据 库 222 
Dali 数据 库 143 DOMO 数据 库 147 
Danio rerio 斑马 鱼 39 DotPlot 程序 229 
Darwin C. j4/K X 238 Dotter 程序 219 
DAtA rig FE 126 DRC HON DE SE eC 100 
DBcat ^t 9536 1& Ve Hof. 83 Drosophila melanogaster $ 39 
dbEST 数据 库 91 DSC 程序 223 
DBGET 检索 工具 81 DSSP 数据 库 143 
dbSNP 数据 库 108 DUST H RFF 187 
dbSTS 数据 库 91 
DDBJ 数据 库 85 F-Cell 程序 227 
DDPS 药物 发 现 与 蛋 身 质 科学 会 议 E. caballus 5j 168 
239 E. coli. X He 4T BE 38, 116, 115 
deer W 163 EBI 欧洲 生物 信息 学 研究 也 61 
DEF 数据 库 144 EC 号 ( 酶 的 ) 131 


deletion. 删除 175 
deoxyribose BK SC EE fe 41 
designability 可 设计 性 52 
DExH/D 数据 库 136 
Dialign 程序 202 
dideoxyribose WRR HW 4i 
DIP 数据 库 135 

Distances 程序 229 
Diverge 程序 229 

DNA 结构 参数 库 92 
DNA 印迹 法 57 
DNAStrider 格式 79 
DNATools 程序 230 

DNS 域名 服务 器 19 


ECD 数据 库 116 

ECDC 数据 库 116 

EcoCyc 数据 库 160 

EcoGene S15 HE i16 

ECOPARSE 程序 211 

EcoWeb 网 页 116, 118 

ed 编辑 程序 33 

EID 数据 库 93 

Electronic PCR 服务 218 

ELSI 法 律 、 伦 理 和 社会 影响 242 
Emacs 编辑 程序 18 

EMBL 格式 72 

EMBL 钦 洲 分 子 生 物 学 实验 室 61, 62 
EMBL 数据 库 84 


* 


EMBnet 欧洲 分 子 目 物 学 网 61, 62 


EMBOSS 开放 软件 系统 244 
EMGLib 数据 库 116 
EMP 数据 | 革 131, 160 
enhancer 增强 子 47 
Entrez Web 网络 版 80 
Entrez 检索 工具 79 
ENZYME 数据 血 131 
EPD 数据 庆 87 

RRE 43 
EpoDB 数据 库 153 

ESP 网 上 学 术 出 版 社 238 


epidermin 


EST 序列 85, 91, 94, 114, 127, 218, 


232 
ESTScan 服务 218 
ETH 服务 器 200 
ET! 分 类 鉴定 专家 中 心 170 
ETI 生物 多 样 性 数据 库 170 
eubacteria Kim H 37 
euchromatin 7? 5 @ Fi 105, 122 
euGenes 库 115 
ExInt 数据 库 94 
exon 外 显 子 48, 93, 111 
ExPASy RZ $ 65 
extein 外 质 50 
extremee value JE [ii ^» fn 196 


F7MD 数据 库 156 
FAMBASE 数据 库 140 
FamCards X ff 134 
family X 134 
family $136 

FASTA 程序 193, 229 
FASTA 服务 192 
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FASTA f& X T6, 77 

FastM 服务 器 217 

FASTP 程序 192 

FBN1 基因 154 

FGSC 真菌 遗传 学 信息 中 心 121 
FHCRC 癌症 研究 中 心 146 
fibrous protein 纤维 蛋白 43 
FIMM 数据 库 157 
findpattern 程序 229 
fingerprint 指纹 147 

Fitch 略 式 79 

Flicker 服务 网 页 224 
FlyBase 数据 库 122 
Flybrain 数据 库 152 
FlyNets 数据 库 122 
Flyview 数据 库 151 

foggdb 数据 库 163 

fold fi 51, 137, 143 
Foldrna 程序 230 

Frames 程序 229 

FSF 自由 软件 基金 会 18 
FSSP 数据 库 143 

ftp 文件 传输 20, 23 

ftp 协议 30 

Fugu 数据 库 123 

Fungi 真菌 121 

FunSiteP 程序 217 


G 蛋白 148 

gt 编译 程序 18 
Gap 程序 229 
gap 空位 175 
GCG 程序 包 229 
GCG 格式 76 
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252 


GDB 数据 库 101 

GEC 基因 教育 中 心 242 
Gelassemble 程序 229 
Geldisassemble 程序 229 
Gelmerge 程序 229 

Gelstart 程序 229 

GenBank ist 72 

GenBank 数据 库 1, 85 
GenCANS-RDP 数据 库 100 
GeneCards 库 132 
GeneCensus $ Pi £i E652 «v fS PE. 151 
GeneExpress 程序 215 
GeneFIND 程序 221 
GeneFinder 程序 213 

GeneID 程序 213 

Genelnfo 网 页 173 

GeneLang 程序 211 
GeneLetter 网 上 基因 通信 242 
GeneMap'99 人 类 基因 图 谱 102 
GeneMark f. 214 
GeneParser 程序 212 


Genetic code viewer 遗传 密码 -- 览 表 
45 


Genie 程序 211 

GenMapDB 数据 库 110 
GenomeNet 数据 库 服务 网 页 81 
GenomeWeb 网 页 173 

GenPept 数据 库 129 

GenQuest 服务 199 

GenScan 程序 211 

GenTerpret 程序 231 

genus fM 36 

GenView 程序 213 


germplasma 种 质 165 
GhostScript 程序 26 
Ghostview 程序 18 

GI 号 130 

GIB 微生物 基因 组 信息 网 页 115 
GIF-DB 数据 库 122 
Gilbert, W. 4 

Glimmer 程序 214 
glycogen 糖 原 40 

Gnu 自由 软件 18 
GNU/Linux 系统 18 
Gnuplot 绘图 软件 18 
GNUWare 自由 软件 18 
Goatmap 数据 库 168 
GOBASE 数据 库 125 
gopher 服务 器 20, 23 
GostScript 程序 18 
GRAIL 程序 215 
GrainGenes 数据 库 165 
GRBase W HIE 147 


gRNA 数据 库 96 

Growtree 程序 229 

GSDB 数据 库 85 

GSF 德国 环境 与 健康 研究 中 心 64 


GSView 程序 26 
guide tree 导 引 树 200 
Gumbel 分 布 196 
GXD 数据 库 153 

gzip 程序 18 


GÉNÉTHON 法 凡人 类 基因 组 研究 中 
x» 107 


H. influenza. DK SEMPER 118 
H. roreizi PIE 152 


HaemB 数据 库 156 

HAMSTeRS 数据 库 156 

HDB 数据 库 132 

Helicalwheel 程序 230 

heterochromatin F% @ mM 89 

HGBASE 数据 库 109 

HGMD 数据 库 154 

HGMP 3€ [8] A, 3E 3E P4 £8 HH iE v Dei re 
o 64 

HHM! Howard Hughes 医学 研究 所 
64 

HIB 数据 库 108 

HIDB % iB HF 118 

HIDC 数据 库 118 

HIG HLA 信息 红 158 

HighWire RRA 237 

histone 组 蛋白 132 

HITS 数据 库 145 

HIV RT 数据 库 159 

HIV 数据 库 159 

HLA 人 和 白细胞 抗 源 107, 158 

HLA 数据 库 158 

HLA.Bind 程序 219 

HMMER 程序 218 

HMMPRO 程序 218 

HOBACGEN 数据 库 133 

homeobox [835tJEf 91 

homeodomain 数据 库 136 

homeodomain [die F £5 Fs o1 

Homo erectus 直立 人 36 


Homo neanderthalensis 尼 安 德 特 人 
36 


Homo sapiens 知人 36, 39. 104 
homolog 间 海 蛋白 质 150 
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horse © 163 

HorseMap 马 基 因 图 谱 数 据 库 168 
HOVERGEN 数据 库 92 

HOX Pro 数据 库 91 

HP 模型 52 

hprt 基因 突变 数据 库 113 
HSHGP 高 中 人 类 基因 组 计划 242 
HSSP 数据 库 143 

HTML 超 文 本 标注 语言 20, 22, 221 
hitp 超 文 本 传输 协议 20, 23 
HUGE 数据 库 110 

HuGeMap 数据 库 102 

HUGO A 2E X pj 4H £H £1 103 
HUGO Pacific 103 

HUMAT 人 笨 解 剖 学 数据 库 169 
HvrBase 数据 库 90 
hydrophobicity 疏水 性 52 
hyperlink 超 链 接 20 

hypertext 超 文本 20 

Hyseq 公司 232 


LM.A.G.E 协作 组 109 
IARC p53 数据 库 112 


ICGEB 国际 遗传 工程 与 生物 技术 中 
JL 67 


ICN 离子 通道 网 络 137 

ICRF 结构 域 服务 器 222 

ICTV 国际 病毒 分 类 委员 会 127 
ICTVdB 病毒 数据 库 127 

IDB 数据 库 93 

IDL Jt mig XB d 243 

IEDB 数据 库 93 

IG 格式 79 

ig 免疫 球 蛋 白 158 


ILDIS 国际 豆 科 数据 库 和 了 服务 166 
IMB 数据 库 149 

IMD 数据 库 88 

IMGT 数据 库 158 

InBase 数据 库 136 

InCyte 公司 232 

indel 插 删 175 

INE 水 称 基 因 组 数据 库 164 


INFOBIOGEN 法 国 网 家 生物 信息 中 
心 66 


INFOGENE 数据 库 144 

INRA 法 国 国 家 农业 研究 所 363 
INSD 国际 核酸 序列 数据 库 84 
insertion. ff A 175 

Insight [1 程序 232 

intein 内 质 50 

Internet Explorer 浏览 器 22, 30 
InterPro 数据 库 145 

intron 内 含 子 48, 93, 109 
Intronerator 数据 库 93 

IP 地 址 19 

Ip 等 电 点 57 

ISI. 科学 信息 研究 所 169 

ISMB 年 会 239 

Jeoelectric 程序 230 

ISREC 瑞士 实验 疤 症 研究 所 65 
ISSD 数据 库 134 

1SYS 软件 系统 245 

TUBio 生物 学 软件 档 崇 172 
IUBio 印第安 那 大 学 生物 信息 中 心 69 
IXDB 数据 库 110 


Jade ACeDH 的 Java 界面 244 
Java 语言 16 


Java Application 软件 17 

Jave Applet $k £F 17 

JGI 联合 基因 组 研究 所 105 
JIPID 日 本 国际 蛋白 项 信息 库 64 
Jpred2 程序 223 


Kabat 数据 库 155 

KEGG 数据 库 161 

keratin $ EA 43 

KeyNet 数据 库 169 

Kidney DB 数据 库 153 

KIND 数据 库 131 

Kinetoplastida z 4 (ki 99 

kingdom £57 36 

KinMutBase 数据 库 111 

KISAC 瑞典 卡 若 琳 斯 卡 生 物 信息 组 
66 

KMbrainDB 数据 库 155 

KMcancerDB 数据 库 156 

KMDB 数据 库 155 

KMearDB 数据 库 155 

KMeyeDB 数据 库 155 

KMheartDB 数据 库 155 

KOMUGI A A3 163, 166 


Laci 数据 库 113 

LacZ 数据 库 113 
LalnView 程序 202 
LANL 国家 实验 室 105 
LBNL 国家 实验 室 105 
LDL ^£ f£ pd 113 
Leguminosae 4#} t66 
LessTif 界面 16 
LGICdb 数据 库 136 


LGT 俄国 理论 遗传 学 实验 室 67 


LIBRA ! 程序 220 

Life Toois 软件 232 
LifeSeq 数据 库 232 
LIGAND 数据 库 131, 161 
LIMB 数据 库 目 录 83 
Lindenmayer 系统 183 
link 链接 79 

Linux 系统 12 

LLNL 国家 实验 室 105 
LookUp 程序 229 
LoucLink 查询 系统 81 
LSU rRNA 数据 库 100 
Lynx 浏览 器 23 


M. leprae WE IL, 5 E FF US 119 
M. musculus 3k [Àj ZH PE. 124 


M. tuberculosis £5 Fk ^) EE FF HE 119 


Maboya 见 H, roretz: 152 
MAGEST 数据 库 152 
mailto 23 

MaizeDB 数据 库 166 
malign 服务 器 207 

Malthus I- 3 E Nr 238 
Marfan 数据 库 154 

Markov chain 55np Xi 182 
MATDB 数据 库 126 
MatInspector fg7F 217 
MATRIX SEARCH 程序 85 
MBL 海洋 生物 研究 室 170 
MEDLINE 文献 服务 1, 173 
MedMatrix 网 页 236 
Melanie 服务 224 

Mendel G. AEA 235 


255 


Mendel 数据 库 91 
MEROPS fk Bii Js iR 134 
MetaCyc 数据 库 160 
MFOLD 程序 217, 230 
MGD X BLIEER £e 124 
MGEIR 数据 库 124, 153 
MGI 数据 库 124, 166 
MGuide 微 阵列 导 引 226 


MHC 主要 组 织 根 窑 性 复合 体 157, 
158 


MicroSatellite 数据 库 89 
microsatellite 微 卫 星 重 复 序列 89 
milletgenes 数据 库 163 
minisatellite 小 卫星 重复 序列 89 
MIPS 慕尼黑 蛋 揣 质 序列 信息 中 心 64 
MitBASE Pilot 数据 库 125 
MitBase 线粒体 DNA 数据 库 125 
MitoAIn 数据 库 124 

MITOMAP 数据 库 133 

MitoNuc 数据 库 124 

MITOP 数据 库 133 

MJDB 数据 库 119 

MMDB 数据 库 142 

MNCDB 数据 库 120 

ModBase 数据 库 149 

MolAuto 程序 226 

MoIMovDB 分 子 运动 数据 库 149 
MolScript 程序 225 

Moment 程序 230 

Morgan T. H. 摩尔 根 238 
MORGAN 程序 212 

MOT 基因 组 测序 进展 表 115 
Motif 界面 15 
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motif 模 体 50, 52, 90, 132, 134, 137, 
142, 145, 147, 221, 222, 229 


MotiFind 程序 224 

Motifs 程序 229 

Mouse RH PERSI Z KE 101 
MPDB 数据 过 90 

MPW 数据 库 160 

mRNA 前 笨 48, 93 

MSD A PDB 135 

MSF 格式 79 

MSI 公司 232 

MSPcrunch 程序 197 
MsqDB 数据 库 123 

Mus musculus X Bi, 39, 123 
mutation 究 变 108 
MutationView 软件 155 
MycDB 数据 库 119 

MYGD 数据 库 120 

MZEF 程序 218 


N. crassa. Si BE TR SE 121 

NAL 美国 国家 农业 图 书馆 162 

NanoGen 公司 232 

NAR 《核酸 研究 》 网 页 83 

Nature KARME? 237 

NBRF 格式 78 

NBRF 35 Ej Ay pe E WESCAE qa 129 

NC-IUBMB 委员 会 131 

NCBI 美国 国家 生物 技术 信息 中 心 62 

NCGR 美衣 国家 革 因 组 资源 中 心 64 

NCGR/CAS 中 国 科学 院 久 家 基因 组 
中 心 71 

ncRNA 数据 库 97 

NDB 数据 库 94 


NEB 公司 136, 231 
Net-[D 公司 232 
NetBLAST 程序 229 
Netscape 浏览 器 22, 80 
Neurospora ME 121 
news 新 闻 组 23 
NEXTDB 数据 库 152 
NEXUS 格式 77 


NHGRI 美国 图 家 人 类 基因 组 研究 所 
103 


NIG 日 本 国立 遗传 学 研究 所 64 
NIR 美国 国家 卫生 回 62, 123 
凝血 因子 IX 156 

凝血 困 8 子 VIN 156 

NIX 程序 216 

NJ 邻接 法 200, 205 

NJBafd 程序 206 

NJIPiot 程序 206 

NLM 3 E Pd 3C PS "E PR 5 THE 1, 62 
NMR 核磁 共振 1357 

nnpredict 程序 223 

NNSSP 程序 223 

non-silent codon 非 沉默 密码 子 109 
Northern 印迹 法 57 

NP 问题 174 

NP 完备 问题 175 


NRCAM 3€ ARKA H MARHA 
W 5b 228 


NRL-3D 数据 库 139 
NRR 核 受 体 资源 158 
NUCLEOSOME 数据 库 92 


O-GlycBase 数据 库 148 
O-Unique 数据 库 148 


O. cuniculus $& 168 

Octopus 程序 197 

Okazaki fragments pg H Ez 47 
olfactory receptor 嗅觉 党 体 143 
Olsen 格式 79 

OMG 肉 作 组 243 

OMIA 数据 库 156 

OOP 面向 对 象 的 程序 设计 14 
OOTFD 数据 库 88 

OPD 数据 库 91 

Openwin 界面 15 

ORDB 数据 库 148 

order H 36 

ORF Finder 服务 213 

ORF 开放 读 杠 210, 213 
ortholog 直系 同 关 150 

Oryza sativa. 水 稻 39 

OsGI 水 家 基因 索引 165 

OTU 操作 性 分 类 单元 202 
OWL Æ É APIR 132 


P. aeruginosa iR BIER BR 107 
P. folciparum A ETEW IAB 121 
P1 UE RE (KE 55, 124 

p53 数据 库 112, 113 

PAH 特异 位 点 157 

palindrome 国文 53, 183 
Palingol 程序 216 

PAM XE BE 176 

PAML 程序 207 

paralog 2$ fj 150 

Pasteur 过 斯 德 研究 所 (25) 66 
PATCHX 数据 库 130 

PathDB 数据 库 161 
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PatSearch 程序 216 
pattern. 模式 52, 130, 145 
PAUP 程序 206 

PAX2 数据 库 154 

PAX6 数据 库 154 

PBIL 里 易 生 物 信息 中 心 66 
PCR X AM EE NE 55 
PDB at a Glance 138 
PDB 数据 库 137 
PDBFinder 数据 库 138 
PDBNEW 数据 库 138 
PDBselect 数据 库 138 
PDBsum 数据 库 139 
PDD 数据 库 157 

PDF 文件 27 

PE 程序 225 

Pearson 格式 A, FASTA 76 
PEDANT 程序 系统 221 
PEDB 数据 库 159 

Pedro 网 页 241 

penalty $j5r 175 
PepCards X ff 134 
Pepplot 程序 230 
Peptidesort 程序 230 
Peptool 程序 230 

Perl 语言 27 

PFAM 蛋白 质 家 族 数据 库 146 
PFAM-A 数据 库 146 

PGI! 数据 库 64, 119 
phage 赚 菌 体 38 

PHD $ AMARI 222 
PhosphoBase 数据 库 135 
phospholipids 84A% 40 


257 


258 


Phrap 程序 209 

Phred 程序 209 

PHYLIP 程序 包 206 
Phylip 格式 77 
Phylodendron 程序 207 
Phylo.Win 程序 206 
Phyltest 程序 207 

phylum [|| 36 
Phytophthora FER 119 
pig 猪 163 

PiGBASE 9E 3X A Fi 167 
PileUp 程序 229 

PIR X Efi f BA 221, 128 
PIR-ALN 数据 库 140 
PIR-ASDB 数据 库 131 
PIR/CODATA 格式 75 
PKR 蛋白 激酶 信息 库 134 
PKUBIOS 服务 器 70 
PLACE 数据 血 90 

plain text 纯 文 本 25 
Plain 格式 76 

PlantCare 数据 库 90 
plasmid 质粒 4S 
PLMItRNA 数据 库 98 
Plotfold 程序 230 

plug-in $üft 80 

PMD 数据 库 148 

PNAS 9 i 237 
Pneumocystis Wik h 121 
Pol3Scan W% I 216 
polar 极 性 52 

POP 而 向 过 程 的 程序 设计 i 
PostScript 语言 18, 26 
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PREDATOR 程序 222 
PRESAGE 数据 库 144 
Pretty 格式 79 

PRF HkZEPEYERUEALAE E 134 
PRF/LITDB 数据 库 134 
PRF/SEQDB 3i Ki 134 
PRF/SYNDB 数据 库 134 
primase 引物 酶 47 

primer 引物 47 

Primer3 程序 209 

PRINTS 数据 库 147 
ProClass 数据 库 130, 221 
PROCRUSTES 程序 213 
ProDom 数据 库 147 
ProDomCG 数据 库 147 

Prof 程序 223 

profile $6 BR 52, 130, 218, 220 
Profilescan 程序 230 
progressive alignment x P Eke 200 
PromFD 程序 217 

PromFind 程序 231 
PROMISE 数据 库 142 
PROMOTER SCAN 程序 216 
promotor 启动 子 47 
prophage Bii pf 38 
PROSITE 数据 库 130, 221 
PrositeScan 服务 器 65, 130 
proteomics 有 蛋白质 组 学 65 
ProtFam 数据 库 140 
ProTherm 数据 库 141 
ProtoMap 数据 库 133 
protome AAM 151 
Protozoa 原生 生物 121 


PRSS3 程序 196 

PSB 年 会 238 

PSD 数据 做 130 
pseudogene 般 基 内 107 
pseudoknot 假 扭 结 99, 183 
PseudoBase ffi £5] 99 
pseudogene RHA 111 
PUMA 数据 库 131, 160 


QTL 数 重 性状 基 央 座 165 
Query R% 80 


R. sphaeroides X ERHI IMR 119 
RabbitMap %3 INE 168 
RainMap 数据 库 168 

randseq 程序 197 

Ranst 网 页 241 

RasMol 程序 225 

RatMap 数据 库 124 

Raw 格式 76 


RCSB 结构 生物 信息 学 合作 研究 组 织 


138 
RDP 数据 库 99 
RDV 病毒 127 
ReadSeq 程序 210 
REBASE 数据 库 133 
RECOMB 年 会 239 
RegulonDB 数据 库 115 
RepBase 数据 年 89, 219 
Repeat 程序 229 
RepeatMasker 程序 219 
RepFind 程序 231 
RESID 数据 库 141 
restriction map MMA iK 54 
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retrieve 电子 邮件 服务 31 

reverse transcriptase R £t ;&fl 50 
RGAD Xi 3E DL AL LEREPE 165 
RGP 水 稻 基 因 组 计划 164 

RHdb 844 Ze HE EP 101 
RHMAPPER 程序 219 

ribose 核糖 41 

ribosome 核糖 体 46 

RiceGenes K fd H vd i 165 
RNA www £f Hiis UC 95 
RNA 非 正 风 配 对 数据 库 101 
RNA 国际 会 议 239 

RNA 学 会 95 

RNA 印迹 法 57 

RNA iM 213 

RNABOB fg) 215 

KNAmods f fip £$ f& 97 

RNAse P $% i PE 95 

Roslin 研究 所 163 

RsGDB 数据 岸 119 


5 见 Svedberg 单位 56 

S. cerevisiae BB BERI 38, 120 
SaGa ARA 8& 217 

salmon &ffh 163 


SANBI 南非 国家 生物 信息 研究 所 67 


Sanger, F. 4 

Sanger 中 心 105 
SANIGENE 数据 库 114 
SAPS 程序 221 

satellite 卫星 重复 序 别 89 
Satellites 程序 219 
SBASE 数据 库 67, 145 
SCI 检索 169 


Science 妇科 学 办 周 州 237 
SCOP 蛋 和 白质 结构 分 类 数据 库 140 
score matrix 打分 答 阵 175 
sc to.e 程序 197 

searching engine 搜索 器 25 
SeaView 程序 201 

SEG 过 滤 程 序 187, 229 
SELEX # X 79 

SELEX.DB 数据 库 92 
SENTRA 数据 库 136 
SeqAnalRef 文献 日 党 169 
SeqPup 程序 214 

Sequin 程序 228 

SEView 程序 214 

SGD 数据 库 120 

shareware 共享 软件 19 
sheep ffi X 163 

SheepBase 数据 磊 167 
SHGC 斯 坦 栖 大 学 人 类 基因 中 心 107 
shotgun Æ M? 59 

SIB 瑞士 生物 信息 研究 所 65 
SIGNAL SCAN 程序 216 


signal transduction fH $$ € 142, 
160 


SignalP 程序 223 

simple repeats 序列 数据 库 89 

site 位 点 130 

small RNA Iii BE 95 

SMART 数据 库 141 

SMI 斯 坦 福 医学 信息 学 实验 室 69 
SMILES 数据 库 161 
Smith-Waterman 算法 181, 221 
snoRNA 数据 库 95 


SNP 单 核 音 酸 多 态 性 107, 108, 109 
SorFind 程序 231 

Southern 印迹 法 57 

SoyBase 大 豆 数据 库 166 


SPARC 美 针 南方 平原 农业 研究 中 心 
166 


species 种 36 

SRPDB 数据 库 96 

SRS 检索 工具 81 

SSEARCH 程序 181, 221 

SsrA 见 tmRNA 96 

SSU rRNA 数据 库 100 

STACK 数据 库 114 

Staden 程序 包 208 

Staden 格式 76 

Standard t& XX 79 

STAR 程序 99 

Stemloop 程序 230 

steroids 类 问 醇 40 

STKE 信和 号 转 导 知识 环境 244 
Stockholm 格 蕊 78 

StringSearch 程序 229 

STRUBE 欧洲 结构 牛 物 学 会 议 239 
Structer 程序 223 

STS 序列 标记 91, 114, 152 
substitution f€4& 175 
substitution matrix 1G IS kp p 175 
superíamily 38 3*K 140 
Svedberg 单位 56 

Swinemap 猪 基 因 图 谱 167 
SWISS-2DPAGE 数据 库 132 
SWISS-3DIMAGE 数据 库 149 
SWISS-PROT 3& F1f& fr 5g pe 128 


Synechocystis 集 了 胞 蓝 细 菌 119 
SYSTERS 数据 库 135 


T NE o 流体 107 

'TACG 程序 214 

TAED 数据 库 170 

TAIR 所 南 芥 信息 资源 126 
TAMBIS 软件 系统 245 
tandem repeats 串联 重复 序列 219 
taxonomy 分 类 学 204 
taxonomy 分 类 学 数据 库 170 
TCP/IP Brix 19 

TcR T Hx 158 

telnet 登录 命令 20, 24 
telomere 9 fy 89 

TESS 程序 217 
Tetrahymena 四 膜 虫 54 
TFD 关系 数据 库 89 
TFSEARCH 程序 216 
Threader 程序 220 
threading 线 串 法 220 
TIGR 数据 库 86 

TIGR 美国 基因 组 研究 所 68 
TIGR-AT 数据库 127 
tilapia WW 163 

TMAP 服务 224 

TMBase 数据 库 144 
TMMeC 分 子 模 拟 电子 会 议 240 
TMpred 程序 224 

tmRDB 数据 库 96 

tRNA 网 点 96 

ToothExp 数据 库 153 
topology 拓扑 140 
TRADAT 程序 216 
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TRADAT 工具 界面 57 
TRANSFAC 数据 库 37 

transition. 置换 175 

TransTerm 数据 库 96 
transversion $h 175 

Tree of Life 生命 之 树 208 
TreeGenes 数据 库 167 

TreeView 程序 207 

TrEMBL 氨基 酸 序列 库 128 
TrEMBI-NEW 氮 基 酸 序列 库 128 
TRF 程序 219 

TRIPLES 数据 库 153 

Triticum. "JE 166 

tRNA 数据 库 98 

tRNAscan-SE 程序 215 

TRRD 数据 库 88 

TTMD $£3E BO WE se c y d He. 156 
tucows 公司 18 


turkey 火 鸡 163 


U-indel 数据 库 99 
ultrametricity 超 测度 204 
UniGene 数据 库 108 
UniVec 数据 库 94 
UPGMA 方法 205 

URL 统一 资源 定位 符 23 
uRNADB 数据 库 99 
USDA 美国 农业 部 162 
USENET 新 闻 组 233 
UTRdb 数据 库 97 
UTRsite 网 页 97 

UWGC 华盛顿 大 学 基因 中 心 107 


VAST 矢量 磋 配 搜索 开具 142 


262 * 2i 


VecScreen 服务 94 Wnt 基因 244 

vector 载体 54, 94 Wnt HAWA 135 

Vector-ig 数据 库 94 WormPD 数据 库 151 

VectorDB 数据 库 94 WRN 3E [4 9E AE HE 113 
VectorNTI 程序 230 WSPC 世界 科学 省 版 社 239 
VEIL 程序 212 WT: 基因 突变 数据 库 113 

vi 编辑 程 译 33 WWW 20 

VIDEdB 数据 库 127 

VIRGIL 数据 库 111 X 系统 15,33 

Viroid 数据 库 97 X-HIM 综合 征 155 

Virtual Cell 程序 228 Xenopus lavias JE BH 39, 152 
virus 病毒 38 新 生命 - 北京 生物 医药 在 线 236 
Visual BLAST 程序 197 XMMR 数据 库 152 

Visual FASTA FR) 197 XNU 过 滤 程 六 157, 229 


W. LI ÈR) 网 页 241 XREFdb 数据 库 151 


Web 万 维 网 20 

Webace ACeDB 的 Web 界面 244 YAC RH 54 

Weizmann( 以 ) W z& 8& WP 69 YGAC 耶鲁 基因 组 分 析 中 心 153 
Wellcome Trust 基金 会 103 YIDB FAA STKE 120 
Western 印迹 法 57 国 子 VI 156 

wheat 数据 库 165 YPD 数据 库 151 

Whitehead 生物 医学 研究 所 (WI) 68 

WICGR 基因 给 研究 忠心 5% zebrafish BE'5f& 39, 123 

Willy 网 页 241 ZFIN 数据 库 123 

Wilms’ tumor 4E 2:38 HE. 113 P A EAE Ex E ife E e ESSET TI 
WinAce 界面 244 中 国 科 学 院 微 生物 研究 所 70 
WIT 数据 库 131 ZmDR 数据 库 166 


WIT/WIT2 系统 159 Zuker 格式 79 


